一、on-policy和off-policy
on-policy:进行自我学习的agent和与环境进行互动的agent是同一网络;
off-policy:看着agentB与环境互动进而进行我学习。
on-policy的毛病:每次策略网络(&)收集训练数据进行训练后,进行一次梯度回升后,都要进行网络参数&更新,更新后采样的数据的数据就不能用了,因为采样的概率不同了(采样的网络参数&变了),重采样,从新采样浪费时间。off-policy用另一个网络进行互动采样,网络参数不变,这样采样数据可重复使用。
重要采样

(图片均来自李宏毅老师课堂!)
p是在网络参数为&时轨迹x产生的概率,x^i是从p(x)的采样值,但咱们要从q(x)中进行采样

指标函数

二、Proximal Policy Optimaization(PPO)

该式前面的KL束缚项均是形容actor和critic网络的行为上类似度,如果两个网络相差太多,算进去的值就会有偏差。留神两个网络参数上的类似度并不代表网络行为动作类似