- 简介
强化学习关注身处某个环境中的智能体通过采取行动取得最大化的累积收益。和传统的监督学习不同,在强化学习中,并不间接给智能体的输入打分。相同,智能体只能失去一个间接的反馈,而无奈取得一个正确的输出 / 输入对,因而须要在一直的尝试中优化本人的策略以取得更高的收益。从狭义上说,大部分波及动静零碎的决策学习过程都能够看成是一种强化学习。强化学习的利用十分宽泛,次要包含博弈论、控制论、优化等多个不同畛域。
- 简述强化学习概念
场景设定:咱们有一个 3×3 的棋盘,其中有一个单元格是马里奥,另一个单元格是宝藏,如图 1 所示。在游戏的每个步骤时,能够往上、下、左、右四个方向挪动马里奥,直到马里奥找到宝藏,游戏完结。在这个场景中,强化学习须要定义一些基本概念来实现对问题的数学建模。
image.png
图 1:场景设定图
强化学习的基本概念能够通过图 2 来形容,次要由环境(Environment)、机器人(Agent)、状态(State)、动作(Action)、处分(Reward)等基本概念形成。简略形容过程就是:一个机器人在环境中会做各种动作,环境会接管动作,并引起本身状态的变动,同时给机器人以处分。机器人的指标就是应用一些策略,做适合的动作,最大化本身的收益。
image.png
图 2:强化学习交互图
- 强化学习中的基本概念
整个场景能够带入到马尔可夫决策过程(Markov Decision Process,MDP)。马尔可夫决策过程是马尔可夫过程与确定性的动静布局相结合的产物,是指决策者周期地或间断地察看具备马尔可夫性的随机动静零碎,并且间断地做出决策的过程,这里还须要定义以下几个因素:
动作:所有可能做出的动作的汇合,记作 A(可能是有限的)。对于本次场景中,A= 马里奥在每个单元格能够行走的方向,即{上、下、左、右}。
状态:所有状态的汇合,记作 S。对于本场景,S 为棋盘中每个单元格的地位坐标{(x,y); x=1,2,3; y=1,2,3},马里奥以后位于(1,1),宝藏位于(3,2)。
处分:机器人可能收到的处分,个别是一个实数,记作 r。对于本场景,如果马里奥每挪动一步,定义 r =-1;如果失去宝藏,定义 r =0,游戏完结。
工夫(t=1,2,3…):在每个工夫点 t,机器人会收回一个动作 at,收到环境给出的收益 rt,同时环境进入到一个新的状态 st。
状态转移:S×A→S 满足,也就是说,从以后状态到下一状态的转移,只与以后状态以及以后所采取的动作无关。这就是所谓的马尔可夫性。
累积收益:从以后时刻 0 开始累积收益的计算方法是,在很多时候,咱们能够取 T =∞。
强化学习的外围工作是,学习一个从状态空间 S 到动作空间 A 的映射,最大化累积受害。罕用的强化学习算法有 Q -Learning、策略梯度,以及演员评判家算法(Actor-Critic)等。
- 强化学习中的价值迭代
上一章节曾经把强化学习问题形式化为马尔可夫决策过程。上面咱们介绍如何利用价值迭代求解马尔可夫决策过程。那么什么是价值呢?咱们将以后状态 s 的价值 V(s)定义为:从状态 s =(x,y)开始,可能取得的最大化处分。联合图 3 直观地了解价值迭代。
image.png
图 3:迭代过程
首先,初始化所有状态的价值 V(s)=0。而后,在每一轮迭代中,对每个状态 s 顺次执行以下步骤。
逐个尝试 {上、下、左、右} 四个动作 a,记录达到状态 s′和处分 r。
计算每个动作的价值 q(s,a)=r+V(s′)。
从四个动作中抉择最优的动作。
更新 s 状态价值。
在第一轮迭代中,因为初始状态 V(s)均为 0,因而对除宝藏所在位置外的状态 s 均有 V(s)=r+V(s′)=-1+0=-1,即从以后地位登程走一步取得处分 r =-1。
在第二轮迭代中,对于和宝藏地位相邻的状态,最优动作为一步达到 V(s′)=0 的状态,即宝藏所在的格子。因而,V(s)更新为 r +V(s′)=-1+0=-1;其余只能一步到 达 V(s′)=- 1 的状态,V(s)更新为 r +V(s′)=-1+(-1)=-2。
第三轮和第四轮迭代如法炮制。能够发现,在第四轮迭代中,所有 V(s)更新前后都没有任何变动,价值迭代曾经找到了最优策略。最终,只须要从马里奥所在 地位开始,每一步抉择最优动作,即可最快地找到宝藏。
下面的迭代过程实际上使用了贝尔曼方程(Bellman Equation),来对每个位 置的价值进行更新
image.png
贝尔曼方程中状态 s 的价值 V(s)由两局部组成:
- 采取动作 a 后带来的处分 r。
- 采取动作 a 后达到的新状态的价值 V(s′)。
- 寻找迭代中的最优解
本章节介绍马尔可夫决策过程的另一种求解办法——策略迭代。什么叫策略呢?策略就是依据以后状态决定该采取什么动作。以场景中的马里奥寻找宝箱为例,马里奥须要一直朝着宝藏的方向后退:以后状态如果在宝藏左侧,策略应该是朝右走;以后状态如果在宝藏上方,策略应该是朝下走。
如何掂量策略的好坏?这就须要介绍策略评估(Policy Evaluation)。给定一个策略 π,咱们能够计算出每个状态的冀望价值 V(s)。策略迭代能够帮忙咱们找到更好的策略,即冀望价值更高的策略,具体步骤如下。
(1)初始化:随机抉择一个策略作为初始值。比方“不论什么状态,一律朝下走”,即 P(A = 朝下走 | St=s)= 1,P(A = 其余 | St=s)= 0。
(2)进行策略评估:依据以后的策略计算 image.png。
(3)进行策略晋升:依据策略评估的后果计算以后状态的最优动作,更新策略 image.png。
(4)不停地反复策略评估和策略晋升,直到策略不再变动为止。在马里奥寻找宝藏问题中,策略迭代过程如图 4 所示。
image.png
图 4:策略迭代过程
初始化策略为:不管马里奥处于哪个状态,一律朝下走。依据这一策略进行 策略评估不难发现,只有宝藏正上方的状态能够达到宝藏,冀望价值为到宝藏的 间隔(-2,- 1 和 0);其余状态不能通过以后策略达到宝藏,冀望价值为负无穷。而后依据以后的冀望价值进行策略晋升:对于宝藏正上方的状态,策略曾经最优,就放弃不变;对于那些地位不在宝藏正上方的状态,则持续依据策略更新公式 image.png,最优策略为横向挪动一步。
通过上一轮的策略晋升,这一轮的策略变为:对于宝藏正上方的状态,向下 挪动;对于不在宝藏正上方的状态,横向挪动一步。依据以后策略进行策略评估,更新各状态冀望价值:宝藏正上方的状态价值冀望不变,仍等于到宝藏的间隔;不在宝藏正上方的状态冀望价值持续更新,即横向挪动一步的处分与指标状态的冀望价值之和。而后依据更新后的冀望价值进行策略晋升:不难发现,对于所有状态,以后策略曾经最优,维持不变,停止策略晋升过程。
最终,马里奥只需从初始状态(1,1)开始,依照以后地位的最优策略进行口头,即向右口头一步,而后始终向下口头,即可最快找到宝藏。
- 总结
强化学习的实质思维就是:首先是基于环境的反馈而做出响应,通过一直与环境的交互,最终实现特定的指标,或者是使得整体口头收益最优化。重点环节就是口头收益最优化的求解过程。以上内容中寻找最优路线场景就是一个根底的强化学习例子。欢送大家多多斧正探讨。