关于机器学习:DRL之PPO

一、on-policy和off-policy
on-policy:进行自我学习的agent和与环境进行互动的agent是同一网络；
off-policy:看着agentB与环境互动进而进行我学习。
on-policy的毛病：每次策略网络π（&）收集训练数据进行训练后，进行一次梯度回升后，都要进行网络参数&更新，更新后采样的数据的数据就不能用了，因为采样的概率不同了（采样的网络参数&变了），重采样，从新采样浪费时间。off-policy用另一个网络进行互动采样，网络参数不变，这样采样数据可重复使用。
重要采样：

（图片均来自李宏毅老师课堂！）
p是在网络参数为&时轨迹x产生的概率，x^i是从p(x)的采样值，但咱们要从q(x)中进行采样

指标函数

二、Proximal Policy Optimaization(PPO)

该式前面的KL束缚项均是形容actor和critic网络的行为上类似度，如果两个网络相差太多，算进去的值就会有偏差。留神两个网络参数上的类似度并不代表网络行为动作类似

发表回复取消回复

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理。

关于机器学习:DRL之PPO

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于机器学习:DRL之PPO

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复