乐趣区

关于机器学习:强化学习离轨策略从失败中获得成功经验-以追女孩为例-采样率的数学意义

简介:我一个敌人小拍,姐妹泛滥,稳如老狗。姐妹们常纳闷:小拍同学 会吃会玩会聊天,上知美妆,下知韩综,中晓穿搭,做事靠谱,为人颇有准则 ,居然没追成过一个女孩?要我说,这其实没什么可少见多怪的,我刚意识小拍那阵子,他还是个钢铁小直男呢。 用强化学习的角度看,小拍在这几年做了很好的离轨策略(off-policy)学习,即从本人和他人“追女生”这个过程中学习教训,无论后果成败,都能无效地学到货色。 本文咱们就以“追女孩”为例,探讨离轨策略,进而引申出“重要度采样比”/“采样率”的数学意义解释(次要援用台湾大学李宏毅老师的观点)。

本文目录:

  • 离轨策略:从失败与他人的教训中学习
  • 重要度采样比:修改“了解”的偏差

离轨策略:从失败与他人的教训中学习

在强化学习中,咱们要学到的 / 收敛迫近的控制策略,肯定是最优的。 以追女生为例,小拍心里的目标只有一个:用最好的形式追胜利。

很显然,咱们要学习的策略,肯定是一个“能让咱们胜利的策略”,但问题是:

  • 小拍 本人从未胜利过,只有失败的教训,他能够从中学到什么吗?
  • 他人的教训或是胜利的、或是失败的,但 小拍不可能齐全复制下来,小拍能够从中学到什么吗?

对于强化学习学习来讲,上述两个问题的答案都是 必定 的。

在 Sutton 的经典书籍中,在 第五章第五节 首次提到 “离轨策略(off-policy)” 这个概念。

尽管第五章才被介绍,但 “离轨策略” 这个概念,却简直是 强化学习实际 中最为重要的概念之一,因为:

  • 强化学习的 数据往往只能通过与环境交互得出,这造成了其数据获取老本过大,且少之又少;
  • 而书中 5.5 节前的简略间接的迭代式,只能 一边应用以后控制策略,一边改良以后控制策略(同轨策略,on-policy),这容易造成一些没有被摸索过的办法,永远都不被尝试(固步自封),也会 导致咱们无奈应用之前的、他人的数据

小拍亲口为咱们做了类比:

  • 同轨策略: 这次失败了,这个办法不好,嗯,把这个办法改良一下,下次尝试!
  • 离轨策略: 我应用的办法,并不一定是我目前认为最好的办法;或者说,不论我用什么办法,我都能从中学到货色,并且自我晋升,寻找我的最优办法。如果他人有教训,我也能够从中有所播种!

或者你曾经能够看出,同轨策略是离轨策略的一种非凡模式 ,在设计算法时, 如果其能够满足离轨策略要求,其肯定能够进行同轨策略的学习。

且在实践中,咱们 很难不应用 离轨策略:

  • 在与环境的交互中,咱们尽量不要应用以后的最优策略 (同轨策略学习形式),因为这样咱们会“谨小慎微”,不敢做出有创意的尝试;
  • 之前的数据要被复用,而之前的数据也是在不同于以后策略的策略下产生的。

重要度采样比:修改“了解”的偏差

离轨策略 下,咱们 不能应用“想当然”的迭代方法,因为这会造成数学实践上的偏差,最终失去不良的学习效果。在应用不同于以后策略的策略获取到的数据时,为了避免“了解”有偏差,咱们须要用采样率公式修改。

如果你更喜爱谨严的数学推导,能够查看 Sutton 的《Reinforcement Learning: An Introduction Second Edition》。然而说实话,我往年一月份第一次学习这部分时,不是很懂 off-policy 与 重要度采样比 这个概念。

如上,我在 CSDN 找到了我对于这部分的笔记,当初看来,只是写到了成果,过后还是没有写到“为什么”。

起初学习了 李宏毅老师的深度学习课程 ,李老师略带着讲了一些强化学习:李老师连 MDP 这个根底假如都没介绍,然而其一些对于强化学习的观点却让我眼前一亮,尤其是 在介绍 PPO 前对采样率从散布角度上的介绍。

这里,咱们仅从 数据采样 角度探讨采样率。

如上,简略的推导后,咱们找到了 p 采样与 q 采样的分割,且能够通过 E_{x~q} 轻易地失去 E_{x~p}。而那个分式,不就是咱们的采样率嘛!

上面 从散布实例 具体解释一下。

如上,f(x) 的值在数据分布上用 红线 示意。咱们能够看出:如果基于 p(x) 对 f(x) 进行采样,那最初失去的期望值应该是负值,因为 p(x) 总是偏向于在 f(x) 左侧采样(图中的蓝线,在左侧很高)。

然而,咱们目前只能基于 q(x) 采样失去数据,而 q(x) 总是偏向于在 f(x) 右侧采样(图中的绿线,在右侧很高)。这就导致了采样到的 f(x) 数据都是正的。 如果不加采样率,咱们会谬误的认为:p(x) 下采样的 f(x) 冀望是某个正值。

如何打消这种偏差呢?足够多的采样 + 采样率公式

如上,当咱们进行了足够多的采样后:只管 q(x) 下很小的概率在左侧获取数据,但一旦咱们获取到,咱们将通过采样率“很好地”对其进行利用。

如上图中左侧的绿点,因为 q(x) 在左侧值很小,而 p(x) 在左侧值很大,则依据采样率公式,咱们给左侧的数据一个很大的权重,这样,咱们便“修改了”偏差。在 足够的采样 + 采样率 的加持下,咱们能够正确地预计出:p(x) 下采样的 f(x) 冀望是某个负值。

我很器重我文章的正确性,有不同意见,欢送给我发邮件:piperliu@qq.com。

后记:这篇文章本来的题目是 如何了解强化学习中『离轨策略的采样率』?让咱们做一个简略的推导 ,但起初成文时我灵光乍现: 离轨策略是从非最优中学习最优策略,这不正是从失败中学习成功经验嘛! 联合我敌人小拍的个人经历(有哪件事是我敌人始终在失败,但却始终在提高来着?)… 因而从强化学习的角度看,追过那么多女孩,四舍五入小拍也算谈过恋爱吧!不多说了兄弟姐妹们,关注公众号「Piper 蛋窝」点个在看再走吧~

退出移动版