强化学习从根底到进阶 - 常见问题和面试必知必答 [1]:强化学习概述、序列决策、动作空间定义、策略价值函数、摸索与利用、Gym 强化学习试验
1. 强化学习外围概念
- 强化学习(reinforcement learning,RL):智能体能够在与简单且不确定的环境进行交互时,尝试使所取得的处分最大化的算法。
- 动作(action):环境接管到的智能体基于以后状态的输入。
- 状态(state):智能体从环境中获取的状态。
- 处分(reward):智能体从环境中获取的反馈信号,这个信号指定了智能体在某一步采取了某个策略当前是否失去处分,以及处分的大小。
- 摸索(exploration):在以后的状况下,持续尝试新的动作。其有可能失去更高的处分,也有可能赤贫如洗。
- 开发(exploitation):在以后的状况下,持续尝试已知的能够取得最大处分的过程,即抉择反复执行以后动作。
- 深度强化学习(deep reinforcement learning):不须要手动设计特色,仅须要输出状态就能够让零碎间接输入动作的一个端到端(end-to-end)的强化学习办法。通常应用神经网络来拟合价值函数(value function)或者策略网络(policy network)。
- 全副可观测(full observability)、齐全可观测(fully observed)和局部可观测(partially observed):当智能体的状态与环境的状态等价时,咱们就称这个环境是全副可观测的;当智能体可能察看到环境的所有状态时,咱们称这个环境是齐全可观测的;个别智能体不能察看到环境的所有状态时,咱们称这个环境是局部可观测的。
- 局部可观测马尔可夫决策过程(partially observable Markov decision process,POMDP):即马尔可夫决策过程的泛化。局部可观测马尔可夫决策过程仍然具备马尔可夫性质,然而其假如智能体无奈感知环境的状态,只能晓得局部观测值。
- 动作空间(action space)、离散动作空间(discrete action space)和间断动作空间(continuous action space):在给定的环境中,无效动作的汇合被称为动作空间,智能体的动作数量无限的动作空间称为离散动作空间,反之,则被称为间断动作空间。
- 基于策略的(policy-based):智能领会制订一套动作策略,即确定在给定状态下须要采取何种动作,并依据这个策略进行操作。强化学习算法间接对策略进行优化,使制订的策略可能取得最大的处分。
- 基于价值的(valued-based):智能体不须要制订显式的策略,它保护一个价值表格或者价值函数,并通过这个价值表格或价值函数来执行使得价值最大化的动作。
- 有模型(model-based)构造 :智能体通过学习状态的转移来进行决策。
- 免模型(model-free)构造 :智能体没有间接预计状态的转移,也没有失去环境的具体转移变量,它通过学习价值函数或者策略网络进行决策。
2. 常见问题汇总
2.1 强化学习的根本构造是什么?
实质上是智能体与环境的交互。具体地,当智能体在环境中失去以后时刻的状态后,其会基于此状态输入一个动作,这个动作会在环境中被执行并输入下一个状态和以后的这个动作失去的处分。智能体在环境里存在的指标是最大化冀望累积处分。
2.2 强化学习绝对于监督学习为什么训练过程会更加艰难?
(1)强化学习解决的大多是序列数据,其很难像监督学习的样本一样满足独立同散布条件。
(2)强化学习有处分的提早,即智能体的动作作用在环境中时,环境对于智能体状态的处分存在提早,使得反馈不实时。
(3)监督学习有正确的标签,模型能够通过标签修改本人的预测来更新模型,而强化学习相当于一个“试错”的过程,其齐全依据环境的“反馈”更新对本人最无利的动作。
2.3 强化学习的基本特征有哪些?
(1)有试错摸索过程,即须要通过摸索环境来获取对以后环境的了解。
(2)强化学习中的智能领会从环境中取得提早处分。
(3)强化学习的训练过程中工夫十分重要,因为数据都是工夫关联的,而不是像监督学习中的数据大部分是满足独立同散布的。
(4)强化学习中智能体的动作会影响它从环境中失去的反馈。
2.4 近几年强化学习倒退迅速的起因有哪些?
(1)算力的晋升使咱们能够更快地通过试错等办法来使得智能体在环境外面取得更多的信息,从而获得更大的处分。
(2)咱们有了深度强化学习这样一个端到端的训练方法,能够把特征提取、价值预计以及决策局部一起优化,这样就能够失去一个更强的决策网络。
2.5 状态和观测有什么关系?
状态是对环境的残缺形容,不会暗藏环境信息。观测是对状态的局部形容,可能会脱漏一些信息。在深度强化学习中,咱们简直总是用同一个实值向量、矩阵或者更高阶的张量来示意状态和观测。
2.6 一个强化学习智能体由什么组成?
(1)策略函数,智能领会用策略函数来选取它下一步的动作,策略包含随机性策略和确定性策略。
(2)价值函数,咱们用价值函数来对以后状态进行评估,即进入当初的状态能够对前面的处分带来多大的影响。价值函数的值越大,阐明进入该状态越无利。
(3)模型,其示意智能体对以后环境状态的了解,它决定零碎是如何运行的。
2.7 依据强化学习智能体的不同,咱们能够将其分为哪几类?
(1)基于价值的智能体。显式学习的是价值函数,隐式地学习智能体的策略。因为这个策略是从学到的价值函数外面推算出来的。
(2)基于策略的智能体。其间接学习策略,即间接给智能体一个状态,它就会输入对应动作的概率。当然在基于策略的智能体外面并没有去学习智能体的价值函数。
(3)另外还有一种智能体,它把以上两者联合。把基于价值和基于策略的智能体联合起来就有了演员 - 评论员智能体。这一类智能体通过学习策略函数和价值函数以及两者的交互失去更佳的状态。
2.8 基于策略迭代和基于价值迭代的强化学习办法有什么区别?
(1)基于策略迭代的强化学习办法,智能领会制订一套动作策略,即确定在给定状态下须要采取何种动作,并依据该策略进行操作。强化学习算法间接对策略进行优化,使得制订的策略可能取得最大的处分;基于价值迭代的强化学习办法,智能体不须要制订显式的策略,它保护一个价值表格或价值函数,并通过这个价值表格或价值函数来选取价值最大的动作。
(2)基于价值迭代的办法只能利用在离散的环境下,例如围棋或某些游戏畛域,对于行为汇合规模宏大或是动作间断的场景,如机器人管制畛域,其很难学习到较好的后果(此时基于策略迭代的办法可能依据设定的策略来抉择间断的动作 )。
(3)基于价值迭代的强化学习算法有 Q-learning、Sarsa 等,基于策略迭代的强化学习算法有策略梯度算法等。
(4)此外,演员 - 评论员算法同时应用策略和价值评估来做出决策。其中,智能领会依据策略做出动作,而价值函数会对做出的动作给出价值,这样能够在原有的策略梯度算法的根底上减速学习过程,从而获得更好的成果。
2.9 有模型学习和免模型学习有什么区别?
针对是否须要对实在环境建模,强化学习能够分为有模型学习和免模型学习。有模型学习是指依据环境中的教训,构建一个虚拟世界,同时在实在环境和虚拟世界中学习;免模型学习是指不对环境进行建模,间接与实在环境进行交互来学习到最优策略。总体来说,有模型学习相比免模型学习仅仅多出一个步骤,即对实在环境进行建模。免模型学习通常属于数据驱动型办法,须要大量的采样来预计状态、动作及处分函数,从而优化动作策略。免模型学习的泛化性要优于有模型学习,起因是有模型学习须要对实在环境进行建模,并且虚拟世界与实在环境之间可能还有差别,这限度了有模型学习算法的泛化性。
2.10 如何艰深了解强化学习?
环境和处分函数不是咱们能够管制的,两者是在开始学习之前就曾经当时确定的。咱们惟一能做的事件是调整策略,使得智能体能够在环境中失去最大的处分。另外,策略决定了智能体的行为,策略就是给一个外界的输出,而后它会输入当初应该要执行的动作。
3. 面试必知必答
3.1 友善的面试官: 看来你对于强化学习还是有肯定理解的呀,那么能够用一句话谈一下你对于强化学习的意识吗?
强化学习蕴含环境、动作和处分 3 局部,其本质是智能体通过与环境的交互,使其做出的动作对应的决策失去的总处分最大,或者说是冀望最大。
3.2 友善的面试官: 请问,你认为强化学习、监督学习和无监督学习三者有什么区别呢?
首先强化学习和无监督学习是不须要有标签样本的,而监督学习须要许多有标签样本来进行模型的构建和训练。其次对于强化学习与无监督学习,无监督学习间接基于给定的数据进行建模,寻找数据或特色中暗藏的构造,个别对应聚类问题;强化学习须要通过提早处分学习策略来失去模型与指标的间隔,这个间隔能够通过处分函数进行定量判断,这里咱们能够将处分函数视为正确指标的一个稠密、提早模式。另外,强化学习解决的多是序列数据,样本之间通常具备强相关性,但其很难像监督学习的样本一样满足独立同散布条件。
3.3 友善的面试官: 依据你的了解,你认为强化学习的应用场景有哪些呢?
7 个字总结就是“多序列决策问题”,或者说是对应的模型未知,须要通过学习逐步迫近实在模型的问题。并且以后的动作会影响环境的状态,即具备马尔可夫性的问题。同时应满足所有状态是可反复达到的条件,即满足可学习条件。
3.4 友善的面试官: 请问强化学习中所谓的损失函数与深度学习中的损失函数有什么区别呢?
深度学习中的损失函数的目标是使预测值和实在值之间的差距尽可能小,而强化学习中的损失函数的目标是使总处分的冀望尽可能大。
3.5 友善的面试官: 你理解有模型和免模型吗?两者具体有什么区别呢?
我认为两者的区别次要在于是否须要对实在的环境进行建模,免模型办法不须要对环境进行建模,间接与实在环境进行交互即可,所以其通常须要较多的数据或者采样工作来优化策略,这也使其对于实在环境具备更好的泛化性能;而有模型办法须要对环境进行建模,同时在实在环境与虚拟环境中进行学习,如果建模的环境与实在环境的差别较大,那么会限度其泛化性能。当初通常应用有模型办法进行模型的构建工作。
更多优质内容请关注公号:汀丶人工智能