作者 |Nathan Lambert
编译 |VK
起源 |Towards Data Science
1. 监督学习
古代强化学习简直齐全集中在深度强化学习上。深度强化学习中的“深”一词意味着在算法的外围方面应用神经网络。神经网络在学习过程中进行一些高维近似。话虽如此,该模型并不需要具备许多层和特色,这是一个广泛的误会,深层暗示了许多层。
简直所有的课程和教程都假设你能够微调简略的神经网络以近似状态值或创立最终策略。从历史上看,这些模型对以下所有训练参数高度敏感:学习率,批量大小,模型参数,数据规范化等等。RL 学习中有许多问题,最好的办法是学习监督学习,而后让 AutoML 工具为你实现工作。
从学习一些代码开始,了解代码所有内容,而后从新构建。这样做几次,你会学的很好。监督学习也是一项技能,在接下来的十年中,它将转化为计算机科学的大多数畛域,因而请紧跟其后。
2. 人工智能中的搜寻办法
RL 是策略空间中的一个搜寻问题。近年来影响最大的论文都是从古老的搜寻问题中失去了重大的启发。让咱们来看看最近在 RL 最有影响力的三篇论文:
- 迄今为止最支流的强化学习后果是:Deepmind 把握了许多游戏,并进行了大规模强化学习。最近是利用布局网络来摸索的将来口头 (https://deepmind.com/research…
- 基于模型的 RL 的钻研现状:基于模型的策略优化(MBPO)。MBPO 正在状态作用空间的左近区域进行搜寻,以取得更残缺的常识。这种模仿的常识就像是一种简略的摸索。(https://arxiv.org/abs/1906.08…
- 无模型的 RL 钻研现状:Soft Actor-critic (SAC)。SAC 以无效勘探和顶峰值性能相结合而闻名。它通过最大化策略上的熵项来实现这一点。作为一个搜寻问题,间接策略搜寻是 RL 最要害的方面。
你能够在加州大学伯克利分校和麻省理工学院的人工智能课程学习,试试做一两个我的项目挑战本人。
https://inst.eecs.berkeley.ed…
https://ocw.mit.edu/courses/e…
3. 了解学术论文
留神,我并没有说浏览学术论文,要害是要可能了解它们。
学术畛域变动迅速,每天都有论文在沉闷的 Twitter 社区中颁布 (说真的,关注几位驰名的钻研人员——这对你跟上进度很有帮忙)。你须要学习的是把有影响力的论文与乐音辨别开,把提高与炒作辨别开。
它不是对于援用量,只管我抵赖援用是一个很好的区别路径。你应该关注的是试验: 它们是遵循提出问题、试验、提出解决方案的轨迹,还是只是对另一个办法的渐进改良? 最好的论文寻找的是真谛,而不是数字。
最好的钻研是寻找最重要的问题,而不论学术讨论的浪潮。学会分别这些信号,你就能跟上这个畛域的步调,成为将来十年有价值的人才。
结尾
我写了很多对于强化学习的基本技能的教程,之后会公布进去。
- 什么是马尔科夫决策过程?
- 强化学习的线性代数。
- 强化学习的根本迭代办法。
原文链接:https://towardsdatascience.co…
欢送关注磐创 AI 博客站:
http://panchuang.net/
sklearn 机器学习中文官网文档:
http://sklearn123.com/
欢送关注磐创博客资源汇总站:
http://docs.panchuang.net/