一、on-policy 和 off-policy
on-policy: 进行自我学习的 agent 和与环境进行互动的 agent 是同一网络;
off-policy: 看着 agentB 与环境互动进而进行我学习。
on-policy 的毛病:每次策略网络 π(&)收集训练数据进行训练后,进行一次梯度回升后,都要进行网络参数 & 更新,更新后采样的数据的数据就不能用了,因为采样的概率不同了(采样的网络参数 & 变了),重采样,从新采样浪费时间。off-policy 用另一个网络进行互动采样,网络参数不变,这样采样数据可重复使用。
重要采样 :
(图片均来自李宏毅老师课堂!)
p 是在网络参数为 & 时轨迹 x 产生的概率,x^i 是从 p(x) 的采样值,但咱们要从 q(x)中进行采样
指标函数
二、Proximal Policy Optimaization(PPO)
该式前面的 KL 束缚项均是形容 actor 和 critic 网络的行为上类似度,如果两个网络相差太多,算进去的值就会有偏差。留神两个网络参数上的类似度并不代表网络行为动作类似