关于机器学习:强化学习离轨策略从失败中获得成功经验-以追女孩为例-采样率的数学意义

简介：我一个敌人小拍，姐妹泛滥，稳如老狗。姐妹们常纳闷：小拍同学 会吃会玩会聊天，上知美妆，下知韩综，中晓穿搭，做事靠谱，为人颇有准则 ，居然没追成过一个女孩？要我说，这其实没什么可少见多怪的，我刚意识小拍那阵子，他还是个钢铁小直男呢。用强化学习的角度看，小拍在这几年做了很好的离轨策略（off-policy）学习，即从本人和他人“追女生”这个过程中学习教训，无论后果成败，都能无效地学到货色。本文咱们就以“追女孩”为例，探讨离轨策略，进而引申出“重要度采样比”/“采样率”的数学意义解释（次要援用台湾大学李宏毅老师的观点）。

本文目录：

离轨策略：从失败与他人的教训中学习
重要度采样比：修改“了解”的偏差

离轨策略：从失败与他人的教训中学习

在强化学习中， 咱们要学到的/收敛迫近的控制策略，肯定是最优的。 以追女生为例，小拍心里的目标只有一个：用最好的形式追胜利。

很显然， 咱们要学习的策略，肯定是一个“能让咱们胜利的策略” ，但问题是：

小拍 本人从未胜利过，只有失败的教训 ，他能够从中学到什么吗？
他人的教训或是胜利的、或是失败的，但 小拍不可能齐全复制下来 ，小拍能够从中学到什么吗？

对于强化学习学习来讲，上述两个问题的答案都是必定的。

在 Sutton 的经典书籍中，在 第五章第五节 首次提到 “离轨策略（off-policy）” 这个概念。

尽管第五章才被介绍，但 “离轨策略” 这个概念，却简直是 强化学习实际 中最为重要的概念之一，因为：

强化学习的 数据往往只能通过与环境交互得出 ，这造成了其数据获取老本过大，且少之又少；
而书中 5.5 节前的简略间接的迭代式，只能 一边应用以后控制策略，一边改良以后控制策略（同轨策略，on-policy） ，这容易造成一些没有被摸索过的办法，永远都不被尝试（固步自封），也会 导致咱们无奈应用之前的、他人的数据 。

小拍亲口为咱们做了类比：

同轨策略： 这次失败了，这个办法不好，嗯，把这个办法改良一下，下次尝试！
离轨策略： 我应用的办法，并不一定是我目前认为最好的办法；或者说，不论我用什么办法，我都能从中学到货色，并且自我晋升，寻找我的最优办法。如果他人有教训，我也能够从中有所播种！

或者你曾经能够看出， 同轨策略是离轨策略的一种非凡模式 ，在设计算法时， 如果其能够满足离轨策略要求，其肯定能够进行同轨策略的学习。

且在实践中，咱们 很难不应用 离轨策略：

在与环境的交互中，咱们尽量不要应用以后的最优策略 （同轨策略学习形式） ，因为这样咱们会“谨小慎微”，不敢做出有创意的尝试；
之前的数据要被复用，而之前的数据也是在不同于以后策略的策略下产生的。

重要度采样比：修改“了解”的偏差

在 离轨策略 下，咱们 不能应用“想当然”的迭代方法，因为这会造成数学实践上的偏差 ，最终失去不良的学习效果。在应用不同于以后策略的策略获取到的数据时，为了避免“了解”有偏差，咱们须要用采样率公式修改。

如果你更喜爱谨严的数学推导，能够查看 Sutton 的《Reinforcement Learning: An Introduction Second Edition》。然而说实话，我往年一月份第一次学习这部分时，不是很懂 off-policy 与重要度采样比这个概念。

如上，我在 CSDN 找到了我对于这部分的笔记，当初看来， 只是写到了成果，过后还是没有写到“为什么”。

起初学习了 李宏毅老师的深度学习课程 ，李老师略带着讲了一些强化学习：李老师连 MDP 这个根底假如都没介绍，然而其一些对于强化学习的观点却让我眼前一亮，尤其是 在介绍 PPO 前对采样率从散布角度上的介绍。

这里，咱们仅从 数据采样 角度探讨采样率。

如上，简略的推导后，咱们找到了 p 采样与 q 采样的分割，且能够通过 E_{x~q} 轻易地失去 E_{x~p} 。而那个分式，不就是咱们的采样率嘛！

上面 从散布实例 具体解释一下。

如上，f(x) 的值在数据分布上用红线示意。咱们能够看出：如果基于 p(x) 对 f(x) 进行采样，那最初失去的期望值应该是负值，因为 p(x) 总是偏向于在 f(x) 左侧采样（图中的蓝线，在左侧很高）。

然而，咱们目前只能基于 q(x) 采样失去数据，而 q(x) 总是偏向于在 f(x) 右侧采样（图中的绿线，在右侧很高）。这就导致了采样到的 f(x) 数据都是正的。如果不加采样率，咱们会谬误的认为： p(x) 下采样的 f(x) 冀望是某个正值。

如何打消这种偏差呢？ 足够多的采样+采样率公式 。

如上，当咱们进行了足够多的采样后： 只管 q(x) 下很小的概率在左侧获取数据，但一旦咱们获取到，咱们将通过采样率“很好地”对其进行利用。

如上图中左侧的绿点，因为 q(x) 在左侧值很小，而 p(x) 在左侧值很大，则依据采样率公式，咱们给左侧的数据一个很大的权重，这样，咱们便“修改了”偏差。在 足够的采样+采样率 的加持下，咱们能够正确地预计出： p(x) 下采样的 f(x) 冀望是某个负值。

我很器重我文章的正确性，有不同意见，欢送给我发邮件： piperliu@qq.com 。

后记：这篇文章本来的题目是如何了解强化学习中『离轨策略的采样率』？让咱们做一个简略的推导，但起初成文时我灵光乍现： 离轨策略是从非最优中学习最优策略，这不正是从失败中学习成功经验嘛！ 联合我敌人小拍的个人经历（有哪件事是我敌人始终在失败，但却始终在提高来着？） …因而从强化学习的角度看，追过那么多女孩，四舍五入小拍也算谈过恋爱吧！不多说了兄弟姐妹们，关注公众号「Piper蛋窝」点个在看再走吧~

关于机器学习:强化学习离轨策略从失败中获得成功经验-以追女孩为例-采样率的数学意义

离轨策略：从失败与他人的教训中学习

重要度采样比：修改“了解”的偏差

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于机器学习:强化学习离轨策略从失败中获得成功经验-以追女孩为例-采样率的数学意义

离轨策略：从失败与他人的教训中学习

重要度采样比：修改“了解”的偏差

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复