关于神经网络:强化学习的基本求解方法一

简介

上一节次要介绍了强化学习的基本概念，次要是通过设定场景带入强化学习的策略、处分、状态、价值进行介绍。有了根本的元素之后，就借助马尔可夫决策过程将强化学习的工作形象进去，最初应用贝尔曼方程进行表述。本次内容次要是介绍强化学习的求解办法。也等同于优化贝尔曼方程。

贝尔曼方程

首先咱们回顾一下贝尔曼方程。贝尔曼方程能够用于示意在以后时刻t状态的价值和下一时刻t+1状态的价值之间的关系。因而状态值函数v(s)和动作值函数q(s,a)的动静关系都可套用贝尔曼方程进行示意。

这里以状态值函数v(s)为例应用贝尔曼方程进行示意。那么就须要将式子1进行带入，整体能够分为两个局部：第一局部能够了解为即时的处分rt；另一部分示意的是将来状态的折扣价值v(st+1)：

image.png

式子1

那么，状态值函数的贝尔曼方程进化变成为：

image.png

式子2

式子2示意以后状态s的价值函数，由以后状态取得的处分Rs加上通过状态间转换概率Pss乘以下一状态的状态值函数v(s)失去，其中是将来折扣因子。最初能够将表达式简化为式子3的状态：

image.png

式子3

动静规划法

动静布局的解决思维：把一个简单的原始问题合成为多个子问题，再对每一个子问题求解，得出每个子问题的解后，把所有子问题的解进行联合，从而解决困难的原始问题。其中的“动静”指的是问题由系列的状态组成，而且可能随着工夫的变动而逐渐变动，“布局”就是优化每一个子问题。

根本的原理是在计算值函数时用到以后状态s的所有后续状态s的值函数，后续状态值函数依据环境模型中的MDP的p(s|s,a)计算失去，值函数的计算表达式为：

image.png

式子4

策略评估：首先在环境模型已知的状况下，策略评估(Policy Evaluation)用于对任意策略进行正当的预计该策略将带来的累计处分冀望及精确掂量该策略的优略水平。策略评估通过计算与策略对应的状态值函数v(s)，以评估该策略的优劣。即给定一个策略，计算基于该策略下的每一个状态s的状态值v(s)的冀望，并用该策略下单最终状态的冀望来进行评估策略。

策略改良：策略评估的目标时掂量策略的优劣水平，而策略改良(Policy Improvement)的目标是找到更优的策略。首先通过策略评估计算处以后策略的状态值v(s)，而后策略改良算法基于计算失去的状态值v(s)进一步计算求解，以便找到更优的策略。

策略迭代算法：策略迭代(Policy Iteration)由策略评估和策略改良互相组合而成。假如有一个策略0，首先利用策略评估取得该策略的状态值函数v0(s)；而后基于策略改良，取得更优的策略1；接着再次利用策略评估失去新的策略1对应的状态值函数v1(s)；最初依据策略改良取得更优的策略2.根据上述的步骤，屡次交替应用策略迭代和策略改良，通过多轮的交替，策略迭代算法一直迫近最优状态值v(s)，最初能够找到最优策略及其对应的状态值函数v(s)。

值迭代算法：联合策略评估和策略改良，策略迭代算法能够转换为效率更高的值迭代算法，具体表述为，每一次迭代对多有的状态s依照上面式子进行更新：

image.png

式子5

式子5中的p(s,r|s,a)示意：在状态s下执行动作a，环境转移到状态s并取得处分r的概率。

指标是最大化状态值的概率，示意迭代到第k+1次的时候，值迭代可能把取得的最大状态值v(s)赋值给vk+1(s)，直到算法完结，再通过状态值v取得最优的策略。

利用式子5，算法迭代实现所有状态后，能够取得部分最优的状态值，依据部分最优状态值取得部分最优策略。一直迭代上述过程，直至部分最优状态值收敛于全局最优状态值为止。

蒙特卡罗法

蒙特卡罗法能够无效地解决免模型状况下的工作，重要起因是无需依赖环境的齐备常识，只须要收集从环境中进行采样失去的教训轨迹(Experience Episode)即可，基于教训轨迹集数据的计算，用于求解最优的策略。具体而言，是利用教训轨迹的平均值预计状态值函数，教训轨迹平均值指一次教训轨迹中状态s出的累计折扣回报值G，其值函数计算公式为：

image.png

式子6

蒙特卡罗法有以下4个合乎特点：

·实用于免模型，可能间接从环境中学习教训轨迹，即采样过程。

·能够基于免模型工作，无需提前通晓MDP的状态转换概率P。

·应用残缺教训轨迹进行学习，属于离线学习办法。

·基于状态值冀望等于屡次采样点均匀处分这一假如，以更为简介的形式求解免模型的强化学习工作。

总结

求解强化学习的次要目标就是求解最优化策略，最优化策略次要是通过求解最优化函数失去，所以最优化值函数的求解就是优化贝尔曼方程。以上介绍的两种办法中，动静规划法可能较好的示意贝尔曼方程，然而在理论的状况下，大多数的强化学习工作都属于免模型工作。通过基于采样点蒙特卡罗法，就可能在肯定水平上解决强化学习工作求解办法的问题。