強化學習

主講老師：葉梓

課程領域：管理者技能提升培訓課程

課程詳情：

第一課強化學習綜述

1.強化學習要解決的問題

2.強化學習的發展歷史

3.強化學習方法的分類

4.強化學習方法的發展趨勢

5.環境搭建實驗（Gym，TensorFlow等）

6.Gym環境的基本使用方法

7.TensorFlow基本使用方法

第二課馬爾科夫決策過程

1.基本概念：馬爾科夫性、馬爾科夫過程、馬爾科夫決策過程

2.MDP基本元素:策略、回報、值函數、狀態行為值函數

3.貝爾曼方程

4.最優策略

5.Python介紹及簡單的代碼演示

案例：構建機器人找金幣和迷宮的環境

第三課基于模型的動態規劃方法

1.動態規劃概念介紹

2.策略評估過程介紹

3.策略改進方法介紹

4.策略迭代和值迭代

5.值迭代與最優控制介紹

6.基于 python 的動態規劃方法演示

案例：實現基于模型的強化學習算法

第四課蒙特卡羅方法

1.蒙特卡羅策略評估方法

2.蒙特卡羅策略改進方法

3.基于蒙特卡羅的強化學習方法

4.同策略和異策略強化學習

5.重要性采樣

6.基于 python 的蒙特卡羅強化學習方法演示

案例：利用蒙特卡羅方法實現機器人找金幣和迷宮

第五課時序差分方法

1.DP，MC 和TD方法比較

2.MC和TD方法偏差與方差平衡

3.同策略TD方法：Sarsa 方法

4.異策略TD方法：Q-learning 方法

5.N步預測及的前向和后向觀點

案例：Q-learning和Sarsa的實現

第六課基于值函數逼近方法

1.值函數的參數化表示

2.值函數的估計過程

3.神經網絡基礎講解

4.DQN 方法介紹

5.DQN變種：Double DQN, Prioritized Replay, Dueling Network

案例：用DQN玩游戲——flappy bird

第七課策略梯度方法

1.策略梯度方法介紹

2.似然率策略梯度推導及重要性采樣視角推導

3.似然率策略梯度的直觀理解

4.常見的策略表示

5.常見的減小方差的方法:引入基函數法，修改估計值函數法

案例：利用gym和tensorflow實現小車倒立擺系統，乒乓球游戲

第八課 TRPO方法介紹及推導

1.替代回報函數的構建

2.單調的改進策略

3.TRPO 實用算法介紹

4.共軛梯度法搜索可行方向

5.PPO方法

6.基于python的TRPO方法實現

案例：trpo算法和ppo算法實現

第九課 AC方法

1.隨機策略與確定性策略比較

2.隨機策略AC的方法

3.確定性策略梯度方法

4.DDPG 方法及實現

5.A3C方法講解

案例：基于 python 的 DDPG 方法實現

第十課逆向強化學習

1.基于最大邊際的方法

2.學徒學習、MMP

3.結構化分類、神經逆向強化學習

4.基于概率模型的方法

5.最大熵、相對熵

6.深度逆向強化學習

案例：略

其他課程

強化學習: 培訓課程

數據分析與數據挖掘: 培訓課程

人工智能之最新自然語言處理技術與實戰: 培訓課程

人工智能與深度學習: 培訓課程

人工智能自然語言處理: 培訓課程

授課見證

葉梓還沒有發布授課見證

推薦講師

馬成功

Office超級實戰派講師,國內IPO排版第一人

講師課酬：面議

常駐城市：北京市

學員評價：

賈倩

注冊形象設計師,國家二級企業培訓師,國家二級人力資源管理師

講師課酬：面議

常駐城市：深圳市

學員評價：

鄭惠芳

人力資源專家

講師課酬：面議

常駐城市：上海市

學員評價：

晏世樂

資深培訓師,職業演說家,專業咨詢顧問

講師課酬：面議

常駐城市：深圳市

學員評價：

文小林

實戰人才培養應用專家

講師課酬：面議

常駐城市：深圳市

學員評價：

亚洲区日韩精品中文字幕_日韩美女一级毛片_日韩在线视频一区二区三区_日韩乱码中文字幕视频

強化學習

其他課程

馬成功

賈倩

鄭惠芳

晏世樂

文小林