共计 1780 个字符,预计需要花费 5 分钟才能阅读完成。
强化学习从根底到进阶 - 常见问题和面试必知必答 [7]:深度确定性策略梯度 DDPG 算法、双提早深度确定性策略梯度 TD3 算法详解
1. 外围词汇
深度确定性策略梯度(deep deterministic policy gradient,DDPG):在间断管制畛域经典的强化学习算法,是深度 Q 网络在处定性”示意其输入的是一个确定的动作,能够用于间断动作环境;“策略梯度”代表的是它用到的是策略网络,并且每步都会更新一次,其是一个单步更新的策略网络。其与深度 Q 网络都有指标网络和教训回放的技巧,在教训回放局部是统一的,在指标网络的更新上有些许不同。
2. 常见问题汇总
2.1 请解释随机性策略和确定性策略,两者有什么区别?
(1)对于随机性策略 $\pi_\theta(a_t|s_t)$,咱们输出某一个状态 $s$,采取某一个动作 $a$ 的可能性并不是百分之百的,而是有一个概率的,就如同抽奖一样,依据概率随机抽取一个动作。
(2)对于确定性策略 $\mu_{\theta}(s_t)$,其没有概率的影响。当神经网络的参数固定之后,输出同样的状态,必然输入同样的动作,这就是确定性策略。
2.2 对于间断动作的管制空间和离散动作的管制空间,如果咱们都采取策略网络,应该别离如何操作?
首先须要阐明的是,对于间断动作的管制空间,Q 学习、深度 Q 网络等算法是没有方法解决的,所以咱们须要应用神经网络进行解决,因为其能够既输入概率值,也能够输入确定的策略 $\mu_{\theta}(s_t)$。
(1)要输入离散动作,最初输入的激活函数应用 Softmax 即可。其能够保障输入的是动作概率,而且所有的动作概率加和为 1。
(2)要输入间断的动作,能够在输入层中加一层 tanh 激活函数,其能够把输入限度到 $[-1,1]$。咱们失去这个输入后,就能够依据理论动作的一个范畴再做缩放,而后将其输入给环境。比方神经网络输入一个浮点数 2.8,通过 tanh 激活函数之后,它就能够被限度在 $[-1,1]$,输入 0.99。假如小车的速度的动作范畴是 $[-2,2]$,那咱们就按比例将之从 $[-1,1]$ 扩充到 $[-2,2]$,0.99 乘 2,最终输入的就是 1.98,将其作为小车的速度或者推小车的力输入给环境。
3. 面试必知必答
3.1 友善的面试官:请简述一下深度确定性策略梯度算法。
深度确定性策略梯度算法应用演员 - 评论员构造,然而输入的不是动作的概率,而是具体动作,其能够用于间断动作的预测。优化的目标是将深度 Q 网络扩大到间断的动作空间。另外,其含意如其名:
(1)深度是因为用了深度神经网络;
(2)确定性示意其输入的是一个确定的动作,能够用于间断动作的环境;
(3)策略梯度代表的是它用到的是策略网络。强化算法每个回合就会更新一次网络,然而深度确定性策略梯度算法每个步骤都会更新一次策略网络,它是一个单步更新的策略网络。
3.2 友善的面试官:请问深度确定性策略梯度算法是同策略算法还是异策略算法?请阐明具体起因并剖析。
异策略算法。(1)深度确定性策略梯度算法是优化的深度 Q 网络,其应用了教训回放,所以为异策略算法。(2)因为深度确定性策略梯度算法为了保障肯定的摸索,对输入动作加了肯定的噪声,行为策略不再是优化的策略。
3.3 友善的面试官:你是否理解过散布的分布式深度确定性策略梯度算法(distributed distributional deep deterministic policy gradient,D4PG)呢?请形容一下吧。
散布的分布式深度确定性策略梯度算法(distributed distributional deep deterministic policy gradient,D4PG),绝对于深度确定性策略梯度算法,其优化局部如下。
(1)分布式评论员:不再只预计 Q 值的期望值,而是预计冀望 Q 值的散布,行将冀望 Q 值作为一个随机变量来预计。
(2)$N$ 步累计回报:计算时序差分误差时,D4PG 计算的是 $N$ 步的时序差分目标值而不仅仅只有一步,这样就能够思考将来更多步骤的回报。
(3)多个分布式并行演员:D4PG 应用 $K$ 个独立的演员并行收集训练数据并存储到同一个回放缓冲区中。
(4)优先教训回放(prioritized experience replay,PER):应用一个非平均概率从回放缓冲区中进行数据采样。
更多优质内容请关注公号:汀丶人工智能