关于神经网络:强化学习的基本求解方法一

5次阅读

共计 1997 个字符,预计需要花费 5 分钟才能阅读完成。

  1. 简介

上一节次要介绍了强化学习的基本概念,次要是通过设定场景带入强化学习的策略、处分、状态、价值进行介绍。有了根本的元素之后,就借助马尔可夫决策过程将强化学习的工作形象进去,最初应用贝尔曼方程进行表述。本次内容次要是介绍强化学习的求解办法。也等同于优化贝尔曼方程。

  1. 贝尔曼方程

首先咱们回顾一下贝尔曼方程。贝尔曼方程能够用于示意在以后时刻 t 状态的价值和下一时刻 t + 1 状态的价值之间的关系。因而状态值函数 v(s)和动作值函数 q(s,a)的动静关系都可套用贝尔曼方程进行示意。

这里以状态值函数 v(s)为例应用贝尔曼方程进行示意。那么就须要将式子 1 进行带入,整体能够分为两个局部:第一局部能够了解为即时的处分 rt;另一部分示意的是将来状态的折扣价值 γv(st+1):

image.png

式子 1

那么,状态值函数的贝尔曼方程进化变成为:

image.png

式子 2

式子 2 示意以后状态 s 的价值函数,由以后状态取得的处分 Rs 加上通过状态间转换概率 Pss乘以下一状态的状态值函数 v(s)失去,其中 γ 是将来折扣因子。最初能够将表达式简化为式子 3 的状态:

image.png

式子 3

  1. 动静规划法

动静布局的解决思维:把一个简单的原始问题合成为多个子问题,再对每一个子问题求解,得出每个子问题的解后,把所有子问题的解进行联合,从而解决困难的原始问题。其中的“动静”指的是问题由系列的状态组成,而且可能随着工夫的变动而逐渐变动,“布局”就是优化每一个子问题。

根本的原理是在计算值函数时用到以后状态 s 的所有后续状态 s 的值函数,后续状态值函数依据环境模型中的 MDP 的 p(s|s,a)计算失去,值函数的计算表达式为:

image.png

式子 4

策略评估:首先在环境模型已知的状况下,策略评估 (Policy Evaluation) 用于对任意策略进行正当的预计该策略将带来的累计处分冀望及精确掂量该策略的优略水平。策略评估通过计算与策略 π 对应的状态值函数 vπ(s),以评估该策略 π 的优劣。即给定一个策略 π,计算基于该策略下的每一个状态 s 的状态值 v(s)的冀望,并用该策略下单最终状态的冀望来进行评估策略 π。

策略改良:策略评估的目标时掂量策略的优劣水平,而策略改良 (Policy Improvement) 的目标是找到更优的策略。首先通过策略评估计算处以后策略的状态值 v(s),而后策略改良算法基于计算失去的状态值 v(s)进一步计算求解,以便找到更优的策略。

策略迭代算法:策略迭代 (Policy Iteration) 由策略评估和策略改良互相组合而成。假如有一个策略 π0,首先利用策略评估取得该策略的状态值函数 vπ0(s);而后基于策略改良,取得更优的策略 π1;接着再次利用策略评估失去新的策略 π1 对应的状态值函数 vπ1(s);最初依据策略改良取得更优的策略 π2. 根据上述的步骤,屡次交替应用策略迭代和策略改良,通过多轮的交替,策略迭代算法一直迫近最优状态值 v(s),最初能够找到最优策略 π 及其对应的状态值函数 vπ(s)。

值迭代算法:联合策略评估和策略改良,策略迭代算法能够转换为效率更高的值迭代算法,具体表述为,每一次迭代对多有的状态 s 依照上面式子进行更新:

image.png

式子 5

式子 5 中的 p(s,r|s,a)示意:在状态 s 下执行动作 a,环境转移到状态 s 并取得处分 r 的概率。

指标是最大化状态值的概率,示意迭代到第 k + 1 次的时候,值迭代可能把取得的最大状态值 v(s)赋值给 vk+1(s),直到算法完结,再通过状态值 v 取得最优的策略。

利用式子 5,算法迭代实现所有状态后,能够取得部分最优的状态值,依据部分最优状态值取得部分最优策略。一直迭代上述过程,直至部分最优状态值收敛于全局最优状态值为止。

  1. 蒙特卡罗法

蒙特卡罗法能够无效地解决免模型状况下的工作,重要起因是无需依赖环境的齐备常识,只须要收集从环境中进行采样失去的教训轨迹 (Experience Episode) 即可,基于教训轨迹集数据的计算,用于求解最优的策略。具体而言,是利用教训轨迹的平均值预计状态值函数,教训轨迹平均值指一次教训轨迹中状态 s 出的累计折扣回报值 G,其值函数计算公式为:

image.png

式子 6

蒙特卡罗法有以下 4 个合乎特点:

·实用于免模型,可能间接从环境中学习教训轨迹,即采样过程。

·能够基于免模型工作,无需提前通晓 MDP 的状态转换概率 P。

·应用残缺教训轨迹进行学习,属于离线学习办法。

·基于状态值冀望等于屡次采样点均匀处分这一假如,以更为简介的形式求解免模型的强化学习工作。

  1. 总结

求解强化学习的次要目标就是求解最优化策略,最优化策略次要是通过求解最优化函数失去,所以最优化值函数的求解就是优化贝尔曼方程。以上介绍的两种办法中,动静规划法可能较好的示意贝尔曼方程,然而在理论的状况下,大多数的强化学习工作都属于免模型工作。通过基于采样点蒙特卡罗法,就可能在肯定水平上解决强化学习工作求解办法的问题。

正文完
 0