葉梓
            • 葉梓國內知名上市IT企業的資深技術專家,高級工程師
            • 擅長領域: 人工智能 大數據
            • 講師報價: 面議
            • 常駐城市:上海市
            • 學員評價: 暫無評價 發表評價
            • 助理電話: 13006597891 QQ:2116768103 微信掃碼加我好友
            • 在線咨詢

            強化學習與深度強化學習

            主講老師:葉梓
            發布時間:2021-05-21 14:51:35
            課程詳情:

            【課程時長】

            3天(6小時/天)

             

            【課程簡介】

            強化學習是當前最熱門的研究方向之一,廣泛應用于機器人學、電子競技等領域。本課程系統性的介紹了強化學習(深度強化學習)的基本理論和關鍵算法,包括:馬爾科夫決策過程、動態規劃法、蒙特卡羅法、時間差分法、值函數逼近法,策略梯度法等;以及該領域的最新前沿發展,包括:DQN及其變種、信賴域系方法、Actor-Critic類方法、多Agent深度強化學習等;同時也介紹大量的實際案例,包括深度強化學習中最著名的工程應用:Alpha Go。

             

            【課程對象】

            計算機相關專業本科;或理工科本科,具備初步的IT基礎知識的人員

             

            第一天 強化學習

             

            第一課 強化學習綜述

            1.強化學習要解決的問題

            2.強化學習方法的分類

            3.強化學習方法的發展趨勢

            4.環境搭建實驗(Gym,TensorFlow等)

            5.Gym環境的基本使用方法

             

            第二課 馬爾科夫決策過程

            1.基本概念:馬爾科夫性、馬爾科夫過程、馬爾科夫決策過程

            2.MDP基本元素:策略、回報、值函數、狀態行為值函數

            3.貝爾曼方程

            4.最優策略

            案例:構建機器人找金幣和迷宮的環境

             

            第三課 基于模型的動態規劃方法

            1.動態規劃概念介紹

            2.策略評估過程介紹

            3.策略改進方法介紹

            4.策略迭代和值迭代

            案例:實現基于模型的強化學習算法

             

            第四課 蒙特卡羅方法

            1.蒙特卡羅策略評估

            2.蒙特卡羅策略改進

            3.基于蒙特卡羅的強化學習

            4.同策略和異策略

            案例:利用蒙特卡羅方法實現機器人找金幣和迷宮

             

            第五課 時序差分方法

            1.DP,MC和TD方法比較

            2.MC和TD方法偏差與方差平衡

            3.同策略TD方法:Sarsa 方法

            4.異策略TD方法:Q-learning 方法

            案例:Q-learning和Sarsa的實現

             

            第二天 從強化學習到深度強化學習

             

            第一課 基于值函數逼近方法(強化學習)

            1.維數災難與表格型強化學習

            2.值函數的參數化表示

            3.值函數的估計過程

            4.常用的基函數

             

            第二課 基于值函數逼近方法(深度學習與強化學習的結合)

            1.簡單提一下深度學習

            2.深度學習與強化學習的結合

            3.DQN 方法介紹

            4.DQN變種:Double DQN, Prioritized Replay, Dueling Network

            案例:用DQN玩游戲——flappy bird

             

            第三課 策略梯度方法(強化學習)

            1.策略梯度方法介紹

            2.常見的策略表示

            3.常見的減小方差的方法:引入基函數法,修改估計值函數法

            案例:利用gym和tensorflow實現小車倒立擺系統等

             

            第四課 Alpha Go(深度學習與強化學習的結合)

            1.MCTS

            2.策略網絡與價值網絡

            3.Alpha Go的完整架構

             

            第五課 GAN(深度學習)

            1.VAE與基本GAN

            2.DCGAN

            3.WGAN

            案例:生成手寫數字的GAN

             

            第三天 深度強化學習進階

             

            第一課 AC類方法-1

            1. PG的問題與AC的思路

            2. AC類方法的發展歷程

            3. Actor-Critic基本原理

             

            第二課 AC類方法-2

            1. DPG方法

            2. DDPG方法

            3. A3C方法

            案例:AC類方法的案例

             

            第三課 信賴域系方法-1

            1.信賴域系方法背景

            2.信賴域系方法發展路線圖

            3.TRPO方法

            案例:TRPO方法的案例

             

            第四課 信賴域系方法-2

            1.PPO方法

            2.DPPO方法簡介

            3.ACER方法

            案例:PPO方法的案例

             

            第五課 多Agent強化學習

            1.矩陣博弈

            2.納什均衡

            3.多人隨機博弈學習

            4.完全合作、完全競爭與混合任務

            5.MADDPG

            案例:MADDPG的案例等


            授課見證
            推薦講師

            馬成功

            Office超級實戰派講師,國內IPO排版第一人

            講師課酬: 面議

            常駐城市:北京市

            學員評價:

            賈倩

            注冊形象設計師,國家二級企業培訓師,國家二級人力資源管理師

            講師課酬: 面議

            常駐城市:深圳市

            學員評價:

            鄭惠芳

            人力資源專家

            講師課酬: 面議

            常駐城市:上海市

            學員評價:

            晏世樂

            資深培訓師,職業演說家,專業咨詢顧問

            講師課酬: 面議

            常駐城市:深圳市

            學員評價:

            文小林

            實戰人才培養應用專家

            講師課酬: 面議

            常駐城市:深圳市

            學員評價:

            国产在线高清精品二区| 五月天婷婷精品免费视频| 久久久久久精品久久久久| 久久精品午夜福利| 在线成人精品国产区免费| 精品国产婷婷久久久| 日韩AV高清在线看片| 日韩丰满少妇无码内射| 国产av一区二区精品久久凹凸| 中文字幕av日韩精品一区二区| 亚洲91精品麻豆国产系列在线| 少妇人妻无码精品视频app| 精品成人免费自拍视频| 国产亚洲精品AA片在线观看不加载| 四虎永久在线精品国产馆V视影院| 四虎一影院区永久精品| 国产精品深夜福利免费观看| 久久国产综合精品SWAG蓝导航| 99久久99热精品免费观看国产 | 精品国产粉嫩内射白浆内射双马尾 | 精品久久久久不卡无毒| 国产成人精品日本亚洲专区6| 亚洲精品私拍国产福利在线| 久久er国产精品免费观看2| 精品久久久久久国产牛牛app| 国产成人综合日韩精品无码| 日韩在线观看免费完整版视频| 蜜臀亚洲AV无码精品国产午夜.| 日韩国产精品视频| 精品综合久久久久久98| 91精品久久久久久久久久小网站| 久久精品一区二区免费看| 久久精品中文字幕第23页| 日韩免费视频播播| 免费精品视频在线| 日韩一区二区视频在线观看| 日韩内射美女人妻一区二区三区| 国产精品免费_区二区三区观看| 国内揄拍国内精品少妇国语| 亚洲精品国产suv一区88| 95在线观看精品视频|