Datawhale 开源
外围贡献者:王琦、杨逸远、江季
提起李宏毅老师,相熟强化学习的读者敌人肯定不会生疏。很多人抉择的强化学习入门学习材料都是李宏毅老师的台大公开课视频。
当初,强化学习爱好者有更欠缺的学习材料了!Datawhale 开源我的项目组成员总结了李宏毅的强化学习视频,实现了 视频教程 的残缺梳理和复现,再也不必放心强化学习。
目前,我的项目已齐全开源,包含课程内容、配套的习题和我的项目,供大家应用。
1. 李宏毅深度强化学习简介
李宏毅老师现任台湾大学电气工程系副教授,次要钻研方向是机器学习,特地是深度学习。他有一系列公开的强化学习课程视频,也是很多人入门的教程。
李宏毅老师的课程包含很多常见的强化学习算法,比方策略梯度、PPO、DQN、DDPG、演员 - 评论员算法、模拟学习、稠密处分等算法。此外,咱们还补充了马尔可夫决策过程、Q-learning、Sarsa、REINFORCE 等强化学习常见的算法及概念。
「策略梯度」课程中的 PPT,解释了策略梯度的过程
「近端策略优化算法」课程中的 PPT,展现了重要性采样的问题
李宏毅老师的《深度强化学习》是强化学习畛域经典的中文教程之一。李老师风趣有趣的上课格调让艰涩的强化学习实践变得轻松易懂,他会通过很多乏味的例子来解说强化学习实践。比方老师常常会用玩 Atari 游戏的例子来解说强化学习算法。
此外,为了课程的完整性,咱们整顿了周博磊老师的《强化学习大纲》、李科浇老师的《百度强化学习》以及多个强化学习的经典材料作为补充。 对于想入门强化学习又想看中文解说的人来说相对是十分举荐的。
然而,思考到很多强化学习爱好者对于课程笔记的需要,咱们不仅仅须要的是教学视频。咱们须要一份课程笔记,可能引领学习者的思路,帮忙疏导他们进入这个畛域。因而,就诞生了这款《LeeDeepRL-Notes》李宏毅深度强化学习笔记。
2.《LeeDeepRL-Notes》李宏毅深度强化学习笔记
LeeDeepRL-Notes 是 Datawhale 自《李宏毅机器学习笔记》后的又一开源学习我的项目,由团队成员王琦、杨毅远、江季历时四个月合作而成,实现了李宏毅老师深度强化学习课程内容的 100% 复现,并且在此基础上补充了有助于学习了解的相干材料和内容,对重难点公式进行了补充推导。
期间,Datawhale 组织了《深度强化学习根底》学习,在泛滥学习者独特的致力下,对该内容进行了迭代和补充。上面,让咱们来具体理解下工作详情吧。
具体工作:
- 2020 年 6 月 — 2020 年 7 月:笔记整顿初级阶段,视频 100% 复现;
- 2020 年 7 月 — 2020 年 10 月:增加相干的习题和我的项目,对笔记内容及排版迭代优化;
- 2020 年 10 月 — 2020 年 11 月:组队学习《深度强化学习根底》并对内容进行迭代欠缺;
- 2020 年 11 月:最初内容修改,正式推广。
10 月《深度强化学习根底》组队学习中学习者的评估
3.《LeeDeepRL-Notes》学习笔记框架
3.a 亮点
这份学习笔记具备以下长处:
- 齐全将李宏毅老师的讲课内容转为文字,不便学习者查阅参考。
- 为了课程的完整性,咱们还整顿了周博磊老师的《强化学习大纲》、李科浇老师的《百度强化学习》以及多个强化学习的经典材料作为补充。
- 配有相干的习题和我的项目。
3.b 笔记框架
内容在整体框架上与李宏毅老师的深度强化学习课程保持一致。倡议学习过程中将李宏毅老师的视频和这份材料搭配应用,成果极佳。笔记也和课程视频齐全同步。
内容导航见下:
4. 笔记内容细节展现
4.a 对 Q-learning 概念的解析
在笔记中重新整理 PPT 内容,并减少了一些正文
4.b Actor-Critc 算法的引入
依据内容整顿成知识点,不便读者了解浏览
在整顿过程中,咱们并不对视频语音间接转文字,而是依据内容整顿成知识点,不便读者了解浏览。
4.c 利用贴近学生的例子解释知识点
强化学习基本概念的解释
5. 习题(查漏补缺)
只有教程怎么够,来点儿课后习题和关键字总结帮忙大家查漏补缺也是极好的。咱们依据每一章的内容,并联合其余的网络材料,原创了课后习题以及关键字的总结,辅助你在更短的工夫内查漏补缺,令你更快的将“系统、无序”的常识“拼接”残缺。
5.a 关键字让你疾速 get 到文章的要点
在每章教程的前面,咱们都会联合每章的内容,将定义、具体算法、专业名词等关键字和知识点,应用最短、最准确且最文言的形式总结,供大家排汇与坚固。
教程第二章局部关键字示意图
5.b 习题与参考答案助力你的查漏补缺
除了关键词,咱们还提供了章节对应的习题供大家查漏补缺,并且联合其余材料,提供了具体、易懂的答案供大家参考。
教程第一章局部习题以及对应参考答案示意图
6. 我的项目(入手实际)
强化学习少了实际怎么行,这边挑了三个我的项目,都基于风行的 OpenAI gym 环境,让你疾速入门,循序渐进,次要包含:
6.a 对我的项目的繁难形容
6.b 档次清晰的手写代码
将整个强化学习过程分成以上几个子模块,不便拆解与改变,并且符合原论文的伪代码,在 main.py
中提供根本接口:
6.c 应用 Tensorboard 进行可视化
6.d 丰盛的继续更新
在刚刚完结的组队学习中,助教急躁地解答了大家的纳闷,并且会依据反馈的状况,在之后的一个月内,继续更新我的项目的设计办法和具体的代码思路解说,敬请期待~
7. 配套视频
视频地址:https://www.bilibili.com/vide…
8. 开源地址
我的项目地址:https://github.com/datawhalec… 或点击浏览原文获取,欢送 star!