关于后端:深度强化学习技术概述

46次阅读

共计 4492 个字符,预计需要花费 12 分钟才能阅读完成。

简介:在本文中具体介绍了深度强化学习技术,将强化学习分成三大类(value-based 算法、policy-based 算法及联合两者的 AC 算法)来进行介绍。首先,从数学实践角度介绍了强化学习;接着,从不同实用方向对两类深度强化学习算法进行介绍:基于值函数(Value-based)的深度强化学习算法 DQN 和基于策略(Policy-based)的深度强化学习算法 PG。最初,介绍目前利用宽泛的联合前两个算法的结合物 AC(Actor-Critic)算法。深度强化学习介绍强化学习次要用来学习一种最大化智能体与环境交互取得的长期奖惩值的策略,其罕用来解决状态空间和动作空间小的工作,在现在大数据和深度学习疾速倒退的时代下,针对传统强化学习无奈解决高维数据输出的问题,2013 年 Mnih V 等人首次将深度学习中的卷积神经网络(Convolutional Neural Networks,CNN)1[3]引入强化学习中,提出了 DQN(Deep Q Learning Network)4 算法,至此国内上便开始了对深度强化学习(Deep Reinforcement Learning,DRL)的科研工作。除此之外,深度强化学习畛域中一个里程牌事件是 2016 年的 AlphaGo 对战李世石的围棋世纪大战 6,谷歌旗下的人工智能团队 DeepMind 基于深度强化学习开发出的围棋程序 AlphaGo 击败了世界顶级围棋巨匠李世石,震惊了世界,也因而拉开了深度强化学习从学术界走向公众认知的帷幕。深度强化学习联合了深度学习[8](Deep Learning,DL)的特征提取能力和强化学习(Reinforcement Learning,RL)的决策能力[9],能够间接依据输出的多维数据做出最优决策输入,是一种端对端(end-to-end)的决策控制系统,广泛应用于动静决策、实时预测、仿真模仿、游戏博弈等畛域,其通过与环境一直地进行实时交互,将环境信息作为输出来获取失败或胜利的教训来更新决策网络的参数,从而学习到最优决策。深度强化学习框架如下:

上图深度强化学习框架中,智能体与环境进行交互,智能体通过深度学习对环境状态进行特征提取,将后果传递给强化学习进行决策并执行动作,执行完动作后失去环境反馈的新状态和奖惩进而更新决策算法。此过程重复迭代,最终使智能体学到取得最大长期奖惩值的策略。▐  深度强化学习的数学模型 强化学习 [10] 是一种决策零碎,其根本思维是通过与环境进行实时交互,在一直地失败与胜利的过程中学习教训,最大化智能体(Agent)从环境中取得的累计处分值,最终使得智能体学到最优策略(Policy),其原理过程如下图所示:

上图强化学习根本模型中,智能体(Agent)是强化学习的动作实体,智能体在以后状态下依据动作抉择策略执行动作,执行该动作后其失去环境反馈奖惩值 和下一状态,并依据反馈信息更新强化学习算法参数,此过程会重复循环上来,最终智能体学习到实现指标工作的最优策略。马尔可夫决策过程(Markov Decision Process,MDP)[11]是强化学习实践的数学形容,其能够将强化学习问题以概率论的模式示意进去。在 MDP 中可将强化学习以一个蕴含四个属性的元组示意:{S,A,P,R},其中:S 和 A 别离示意智能体的环境状态集和智能体可抉择的动作集;

▐  基于值函数的深度强化学习算法 基于值函数(Value based)的学习办法是一种求解最优值函数从而获取最优策略的办法。值函数输入的最优动作最终会收敛到确定的动作,从而学习到一种确定性策略。当在动作空间间断的状况下该办法存在维度劫难、计算代价大问题,尽管能够将动作空间离散化解决,但离散间距不易确定,过大会导致算法取不到最优,过小会使得动作空间过大,影响算法速度。因而该办法常被用于离散动作空间下动作策略为确定性的强化学习工作。基于值函数的深度强化学习算法利用 CNN 来迫近传统强化学习的动作值函数,代表算法就是 DQN 算法,DQN 算法框架如下:

▐  基于策略梯度的深度强化学习算法 基于策略梯度(Policy based)的深度强化学习算法是一种最大化策略指标函数从而获取最优策略的办法,其相比 Value based 办法区别在于:能够学习到一种最优化随机策略。Policy based 办法在训练过程中间接学习策略函数,随着策略梯度方向优化策略函数参数,使得策略指标函数最大化,最终策略输入最优动作散布。策略以肯定概率输入动作,每次后果很可能不一样,故不适宜利用于像 CR 频谱协同这类动作策略为确定性的问题中。Policy based 办法容易收敛到部分极值,而 Value based 摸索能力强能够找到最佳值函数。上述中的策略指标函数用来掂量策略的性能。定义如下:

▐  AC 算法 R=\Sigma^{T-1}_{t=1}{r_t} AC 算法框架被广泛应用于理论强化学习算法中,该框架集成了值函数预计算法和策略搜索算法,是解决理论问题时最常思考的框架。家喻户晓的 alphago 便用了 AC 框架。而且在强化学习畛域最受欢迎的 A3C 算法,DDPG 算法,PPO 算法等都是 AC 框架。Actor-Critic 算法分为两局部,Actor 的前身是 policy gradient,policy gradient 能够轻松地在间断动作空间内抉择适合的动作(value-based 的 Q -learning 只能解决离散动作空间的问题)。然而又因为 Actor 是基于一个 episode 的 return 来进行更新的,所以学习效率比较慢。这时候咱们发现应用一个 value-based 的算法作为 Critic 就能够应用梯度降落办法实现单步更新,这其实能够看做是拿偏差换方差,使得方差变小。这样两种算法互相补充联合就造成了 Actor-Critic 算法。框架如下:

Actor 基于概率分布抉择行为, Critic 基于 Actor 生成的行为评判得分, Actor 再依据 Critic 的评分批改选行为的概率。上面剖析优缺点:长处:能够进行单步更新,不须要跑完一个 episode 再更新网络参数,相较于传统的 PG 更新更快。传统 PG 对价值的预计尽管是无偏的,但方差较大,AC 办法就义了一点偏差,但可能无效升高方差;毛病:Actor 的行为取决于 Critic 的 Value,然而因为 Critic 自身就很难收敛和 actor 一起更新的话就更难收敛了。(为了解决收敛问题,Deepmind 提出了 Actor Critic 升级版 Deep Deterministic Policy Gradient,后者交融了 DQN 的一些 trick, 解决了收敛难的问题)。参考文献 Ketkar N . Convolutional Neural Networks[J]. 2017.Aghdam H H , Heravi E J . Convolutional Neural Networks[M]// Guide to Convolutional Neural Networks. Springer International Publishing, 2017.Gu, Jiuxiang, Wang, et al. Recent advances in convolutional neural networks[J]. PATTERN RECOGNITION, 2018.MINH V, KAVUKCUOGLU K, SILVER D, et al.Playing atari with deep reinforcement learning[J].Computer Science, 2013, 1-9.MNIH V,KAVUKCUOGLU K,SILVER D,et al.Human-level control through deep reinforcement learning[J].Nature,2015,518(7540):529-533. 曹誉栊. 从 AlphaGO 战败李世石窥探人工智能倒退方向[J]. 电脑迷, 2018, 115(12):188. 刘绍桐. 从 AlphaGo 完胜李世石看人工智能与人类倒退[J]. 科学家, 2016(16).Lecun Y, Bengio Y, Hinton G. Deep learning.[J]. 2015, 521(7553):436. 赵冬斌, 邵坤, 朱圆恒, 李栋, 陈亚冉, 王海涛, 刘德荣, 周彤, 王成红. 深度强化学习综述: 兼论计算机围棋的倒退[J]. 管制实践与利用,2016,33(06):701-717.9 陈学松, 杨宜民. 强化学习钻研综述[J]. 计算机利用钻研(8):40-44+50.L. C. Thomas. Markov Decision Processes[J]. European Journal of Operational Research, 1995, 46(6):792-793.Bardi M, Bardi M. Optimal control and viscosity solutions of Hamilton-Jacobi-Bellman equations /[M]// Optimal control and viscosity solutions of Hamilton-Jacobi-Bellman equations. 1997.Ruder S . An overview of gradient descent optimization algorithms[J]. 2016.R. Johnson, T. Zhang. Accelerating stochastic gradient descent using predictive variance reduction[J]. News in physiological sciences, 2013, 1(3):315-323.Sutton, Richard& Mcallester, David& Singh, Satinder& Mansour, Yishay. (2000). Policy Gradient Methods for Reinforcement Learning with Function Approximation. Adv. Neural Inf. Process. Syst. 12.Silver, David& Lever, Guy& Heess, Nicolas& Degris, Thomas& Wierstra, Daan& Riedmiller, Martin. (2014). Deterministic Policy Gradient Algorithms. 31st International Conference on Machine Learning, ICML 2014. 1.Lillicrap, Timothy& Hunt, Jonathan& Pritzel, Alexander& Heess, Nicolas& Erez, Tom& Tassa, Yuval& Silver, David& Wierstra, Daan. (2015). Continuous control with deep reinforcement learning. CoRR. 原文链接:https://click.aliyun.com/m/10…、本文为阿里云原创内容,未经容许不得转载。

正文完
 0