关于神经网络:强化学习从基础到进阶常见问题和面试必知必答7深度确定性策略梯度DDPG算法TD3算法详解

41次阅读

共计 1780 个字符，预计需要花费 5 分钟才能阅读完成。

深度确定性策略梯度（deep deterministic policy gradient，DDPG）：在间断管制畛域经典的强化学习算法，是深度 Q 网络在处定性”示意其输入的是一个确定的动作，能够用于间断动作环境；“策略梯度”代表的是它用到的是策略网络，并且每步都会更新一次，其是一个单步更新的策略网络。其与深度 Q 网络都有指标网络和教训回放的技巧，在教训回放局部是统一的，在指标网络的更新上有些许不同。

（1）对于随机性策略 $\pi_\theta(a_t|s_t)$，咱们输出某一个状态 $s$，采取某一个动作 $a$ 的可能性并不是百分之百的，而是有一个概率的，就如同抽奖一样，依据概率随机抽取一个动作。

（2）对于确定性策略 $\mu_{\theta}(s_t)$，其没有概率的影响。当神经网络的参数固定之后，输出同样的状态，必然输入同样的动作，这就是确定性策略。

首先须要阐明的是，对于间断动作的管制空间，Q 学习、深度 Q 网络等算法是没有方法解决的，所以咱们须要应用神经网络进行解决，因为其能够既输入概率值，也能够输入确定的策略 $\mu_{\theta}(s_t)$。

（1）要输入离散动作，最初输入的激活函数应用 Softmax 即可。其能够保障输入的是动作概率，而且所有的动作概率加和为 1。

（2）要输入间断的动作，能够在输入层中加一层 tanh 激活函数，其能够把输入限度到 $[-1,1]$。咱们失去这个输入后，就能够依据理论动作的一个范畴再做缩放，而后将其输入给环境。比方神经网络输入一个浮点数 2.8，通过 tanh 激活函数之后，它就能够被限度在 $[-1,1]$，输入 0.99。假如小车的速度的动作范畴是 $[-2,2]$，那咱们就按比例将之从 $[-1,1]$ 扩充到 $[-2,2]$，0.99 乘 2，最终输入的就是 1.98，将其作为小车的速度或者推小车的力输入给环境。

深度确定性策略梯度算法应用演员 - 评论员构造，然而输入的不是动作的概率，而是具体动作，其能够用于间断动作的预测。优化的目标是将深度 Q 网络扩大到间断的动作空间。另外，其含意如其名：

（1）深度是因为用了深度神经网络；

（2）确定性示意其输入的是一个确定的动作，能够用于间断动作的环境；

（3）策略梯度代表的是它用到的是策略网络。强化算法每个回合就会更新一次网络，然而深度确定性策略梯度算法每个步骤都会更新一次策略网络，它是一个单步更新的策略网络。

异策略算法。（1）深度确定性策略梯度算法是优化的深度 Q 网络，其应用了教训回放，所以为异策略算法。（2）因为深度确定性策略梯度算法为了保障肯定的摸索，对输入动作加了肯定的噪声，行为策略不再是优化的策略。

散布的分布式深度确定性策略梯度算法（distributed distributional deep deterministic policy gradient，D4PG)，绝对于深度确定性策略梯度算法，其优化局部如下。

（1）分布式评论员：不再只预计 Q 值的期望值，而是预计冀望 Q 值的散布，行将冀望 Q 值作为一个随机变量来预计。

（2）$N$ 步累计回报：计算时序差分误差时，D4PG 计算的是 $N$ 步的时序差分目标值而不仅仅只有一步，这样就能够思考将来更多步骤的回报。

（3）多个分布式并行演员：D4PG 应用 $K$ 个独立的演员并行收集训练数据并存储到同一个回放缓冲区中。

（4）优先教训回放（prioritized experience replay，PER）：应用一个非平均概率从回放缓冲区中进行数据采样。

更多优质内容请关注公号：汀丶人工智能

正文完

神经网络

发表至：神经网络

2023-06-27

0

关于神经网络:神经网络的组成

关于神经网络:一文带你-GNN-从入门到起飞做一个饭盆最稳-GNN-饭人

关于神经网络:系列教程-用Jina搭建PDF搜索引擎Part-1

关于神经网络:知乎B站部分资源整理主要涉及图神经网络和编程语言

关于神经网络:强化学习从基础到进阶案例与实践71深度确定性策略梯度DDPG算法详解项目实战

关于神经网络:强化学习从基础到进阶常见问题和面试必知必答7深度确定性策略梯度DDPG算法TD3算法详解

强化学习从根底到进阶 - 常见问题和面试必知必答 [7]：深度确定性策略梯度 DDPG 算法、双提早深度确定性策略梯度 TD3 算法详解

1. 外围词汇

2. 常见问题汇总

2.1 请解释随机性策略和确定性策略，两者有什么区别？

2.2 对于间断动作的管制空间和离散动作的管制空间，如果咱们都采取策略网络，应该别离如何操作？

3. 面试必知必答

3.1 友善的面试官：请简述一下深度确定性策略梯度算法。

3.2 友善的面试官：请问深度确定性策略梯度算法是同策略算法还是异策略算法？请阐明具体起因并剖析。

3.3 友善的面试官：你是否理解过散布的分布式深度确定性策略梯度算法（distributed distributional deep deterministic policy gradient，D4PG）呢？请形容一下吧。

Just My Socks（注册教程内含优惠码）

关于神经网络:强化学习从基础到进阶常见问题和面试必知必答7深度确定性策略梯度DDPG算法TD3算法详解

强化学习从根底到进阶 - 常见问题和面试必知必答 [7]：深度确定性策略梯度 DDPG 算法、双提早深度确定性策略梯度 TD3 算法详解

1. 外围词汇

2. 常见问题汇总

2.1 请解释随机性策略和确定性策略，两者有什么区别？

2.2 对于间断动作的管制空间和离散动作的管制空间，如果咱们都采取策略网络，应该别离如何操作？

3. 面试必知必答

3.1 友善的面试官：请简述一下深度确定性策略梯度算法。

3.2 友善的面试官：请问深度确定性策略梯度算法是同策略算法还是异策略算法？请阐明具体起因并剖析。

3.3 友善的面试官：你是否理解过散布的分布式深度确定性策略梯度算法（distributed distributional deep deterministic policy gradient，D4PG）呢？请形容一下吧。

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）