关于机器学习:强化学习调参技巧二DDPGTD3SAC算法为例

1.训练环境如何正确编写

强化学习里的 env.reset() env.step() 就是训练环境。其编写流程如下：

1.1 初始阶段：

先写一个简化版的训练环境。把工作难度降到最低，确保肯定能失常训练。记录失常训练的智能体的分数，与随机动作、传统算法失去的分数做比拟。
DRL算法的分数应该显著高于随机动作（随机执行动作）。DRL算法不应该低于传统算法的分数。如果没有传统算法，那么也须要本人写一个部分最优的算法

评估策略的性能: 大部分状况下，能够间接是对Reward Function 给出的reward 进行求和失去的每轮收益episode return作为策略评分。有时候能够须要间接拿策略的理论分数作为评分
须要保障这个简化版的代码：高效、简洁、可拓展

1.2 改良阶段：

让工作难度逐步提高，对训练环境env 进行迟缓的批改，时刻保留旧版本的代码同步微调 Reward Function，能够间接代入本人的人类视角，为某些行为增加正负处分。留神处分的均衡（有正有负）。留神不要为Reward Function 增加太多额定规定，时常回过头勾销一些规定，防止适度改正。
同步微调 DRL算法，只倡议微调超参数，但不倡议对算法外围进行批改。因为工作变艰难了，所以须要调整超参数让训练变快。同时摸清楚在这个训练环境下，算法对哪几个超参数是敏感的。有时候为了节省时间，甚至能够为 off-policy 算法保留一些典型的 trajectory（不倡议在最终验证阶段应用）。
每一次批改，都须要跑一下记录不同办法的分数，确保：随机动作 < 传统办法 < DRL算法。这样能力及时发现代码逻辑上的谬误。要竭力防止代码中呈现复数个的谬误，因为极难排查。

1.3 收尾阶段：

尝试缓缓删掉Reward Function 中一些比较复杂的货色，删不掉就算了。
抉择<font color=”red”>高下两组超参数</font>再跑一次，确认没有优化空间。

2. 超参数解释剖析

2.1 off-policy算法中常见的超参数

网络宽度： network dimension number。DRL 全连贯层的宽度（特色数量）
网络层数： network layer number。一个输出张量到输入须要乘上w的次数
随机失活： dropout
批归一化： batch normalization
记忆容量： 教训回放缓存 experimence replay buffer 的最大容量 max capacity
批次大小： batch size。应用优化器更新时，每次更新应用的数据数量
更新次数：update times。应用梯度降落更新网络的次数
折扣因子： discount factor、gamma
【网络宽度、网络层数】 越简单的函数就须要越大容量的神经网络去拟合。在须要训练1e6步的工作中，我个别抉择宽度128、256，层数小于8的网络（请留神，乘以一个w算一层，一层LSTM等于2层）。应用ResNet等构造会有很小的晋升。个别抉择一个稍微冗余的网络容量即可，把调整超参数的精力用在这下面不划算，我倡议这些超参数都粗略地抉择2的N次方，

因为：避免适度调参，超参数抉择x+1 与 x-1并没有什么区别，然而 x与2x肯定会有显著区别
2的N次方大小的数据，刚好能残缺地放进CPU或GPU的硬件中进行计算，如Tensor Core
过大、过深的神经网络不适宜DRL，

因为：深度学习能够在整个训练完结后再应用训练好的模型。
而强化学习须要在几秒钟的训练后马上应用刚训好的模型。
这导致DRL只能用比拟浅的网络来保障疾速拟合（10层以下）
并且强化学习的训练数据不如有监督学习那么稳固，无奈划分出训练集测试集去防止过拟合，
因而DRL也不能用太宽的网络（超过1024），防止参数适度冗余导致过拟合

【dropout、批归一化】 她们在DL中失去宽泛地应用，惋惜不适宜DRL。如果非要用，那么也要抉择十分小的 dropout rate（0~0.2），而且要留神在应用的时候关掉dropout。我不必dropout。

益处：在数据有余的状况下缓解过拟合；像Noisy DQN那样去促成策略网络摸索
害处：影响DRL疾速拟合的能力；稍微减少训练工夫

【批归一化】 通过大量试验，DRL相对不能间接应用批归一化，如果非要用，那么就要批改Batch Normalization的动量项超参数。

【记忆容量】 教训回放缓存 experimence replay buffer 的最大容量 max capacity，如果超过容量限度，它就会删掉最早的记忆。在简略的工作中（训练步数小于1e6），对于摸索能力强的DRL算法，通常在缓存被放满前就训练到收敛了，不须要删除任何记忆。然而，过大的记忆也会拖慢训练速度，我个别会先从默认值 2 17 ~ 2 20 开始尝试，如果环境的随机因素大，我会同步减少记忆容量与 batch size、网络更新次数，直到迫近服务器的内存、显存下限（放在显存训练更快）

【批次大小、更新次数】 个别我会抉择与网络宽度雷同、或略大的批次大小batch size。我个别从128、256 开始尝试这些2的N次方。在off-policy中，每往Replay 更新几个数据，就对应地更新几次网络，这样做简略，但成果个别。（深度学习里）更优良的更新办法是：依据Replay中数据数量，成比例地批改更新次数。Don’t Decay the Learning Rate, Increase the Batch Size. ICLR. 2018 。，通过验证，DRL也实用。

【折扣因子】 discount factor、discount-rate parameter 或者叫 gamma 。0.99

2.2 on-policy算法中常见的超参数

同策略（A3C、PPO、PPO+GAE）与异策略（DQN、DDPG、TD3、SAC）的次要差别是：

异策略off-policy：ReplayBuffer内能够寄存“由不同策略”收集失去的数据用于更新网络
同策略on-policy：ReplayBuffer内只能寄存“由雷同策略”收集失去的数据用于更新网络
因而以下超参数有不同的抉择办法：
记忆容量：教训回放缓存 experimence replay buffer 的最大容量 max capacity
批次大小：batch size。应用优化器更新时，每次更新应用的数据数量
更新次数：update times。应用梯度降落更新网络的次数

【记忆容量】 on-policy 算法每轮更新后都须要删除“用过的数据”，所以on-policy的记忆容量应该大于等于【单轮更新的采样步数】，随机因素更多的工作须要更大的单层采样步数能力取得更多的轨迹 trajectory，能力有足够的数据去表白环境与策略的互动关系。详见上面PPO算法的【单轮更新的采样步数】

【批次大小】 on-policy 算法比off-policy更像深度学习，它能够采纳稍大一点的学习率（2e-4）。因为【单轮更新的采样步数】更大，所以它也须要搭配更大的batch size（29 ~ 212）。如果内存显存足够，我倡议应用更大的batch size，我发现一些很难调的工作，在很大的batch size（2 ** 14）背后更容易取得枯燥回升的学习曲线（训练慢然而及其稳固，多GPU分布式）。请自行取舍。

【更新次数】 个别咱们不间接设置更新次数，而是通过【单轮更新的采样步数】、【批次大小】和【数据重用次数】一起算出【更新次数】，详见上面PPO算法的【数据重用次数】

3. TD3特有的超参数

摸索噪声方差 exploration noise std
策略噪声方差 policy noise std
提早更新频率 delay update frequency

如果你善于调参，那么能够能够思考TD3算法。如果你的算法的最优策略通常是边界值，那么你首选的算法就是TD3—-<font color=”red”>最佳策略总在动作边界</font>

【TD3的摸索形式】 让其很容易在摸索「边界动作」：

策略网络输入张量，通过激活函数 tanh 调整到 (-1, +1)
为动作增加一个clip过的高斯噪声，噪声大小由人类指定
对动作再进行一次clip操作，调整到 (-1， +1)

益处： 一些工作的最优策略本就存在存在大量边界动作，TD3能够很快学得很快。
害处： 边界动作都是 -1或 +1，这会升高策略的多样性，网络须要在多样性好数据上训练才不容易过拟合。对于clip 到正负1之间的action，过大的噪声方差会产生大量边界动作。

【摸索噪声方差 exploration noise std】 就是上图中的s。须要先尝试小的噪声方差（如0.05），而后逐步加大。大的噪声方差刻意多摸索边界值，特定工作下能让摸索更快。且高噪声下训练进去的智能体更robust（持重、耐操）。
请留神：过大的噪声方差（大于上图蓝线的0.5）并不会让摸索动作靠近随机动作，而是让摸索动作更靠近繁多的边界动作。此外，过大的噪声会影响智能体性能，导致她不容易摸索到某些state。

因而，适合的摸索噪声方差只能缓缓试出来，TD3适宜违心调参的人应用。在做出谬误动作后容易挽回的环境，能够间接尝试较大的噪声。
咱们也能够模拟 epslion-Greedy，设置一个应用随机动作的概率，或者每距离几步摸索就不增加噪声，甚至也在TD3中应用摸索衰减。这些操作都会减少超参数的数量，慎用。

【策略噪声方差 policy noise std】 确定了摸索噪声后，策略噪声只须要比摸索噪声稍大（1~2倍）。TD3对策略噪声的解释是“计算Q值时，因为类似的动作的Q值也是类似的，所以TD3也为动作加一个噪声，这能使Q值函数更加润滑，进步训练稳定性咱们还能多应用几个增加噪声的动作，甚至应用加权重要性采样去算出更稳固的Q值冀望。在确定策略梯度算法里的这种“在计算Q值时，为动作加noise的操作”，让TD3变得有点像随机策略梯度。无论是否有clip，策略噪声方差最大也不该超过0.5。

【提早更新频率 delay update frequency】 TD3认为：引入指标网络进行 soft update 就是为了进步训练稳定性，那么既然 network 不够稳固，那么咱们应该提早更新指标网络 target network，即多更新几次 network，而后再更新一次target network。从这个想法再拓展进来，咱们甚至能够模拟TTUR的思维做得更粗疏一点，针对双层优化问题咱们能做：

环境随机因素多，则须要尝试更大的提早更新频率，可尝试的值有 1~8，默认值为2
提供策略梯度的critic能够多更新几次，再更新一次actor，可尝试的值有 1~4<

提供策略梯度的critic能够设计更大的学习率，例如让critic的学习率是actor 的1~10倍

因为critic 须要解决比 actor 更多的数据，因而倡议让critic网络的宽度略大于actor

4. SAC特有的超参数

只管上面列举了4个超参数，然而后三个超参数能够间接应用默认值（默认值只会无限地影响训练速度），第一个超参数甚至能够间接通过计算抉择进去，不须要调整。

reward scale 按比例调整处分
alpha 温度系数或 target entropy 指标策略熵
learning rate of alpha 温度系数 alpha 的学习率
initialization of alpha 温度系数 alpha 的初始值
SAC有极少的超参数，甚至这些超参数能够在训练开始前就凭教训确定。
任何存在多个loss相加的指标函数，肯定须要调整系数 lambda，例如SAC算法、共享了actor critic 网络的A3C或PPO，应用了辅助工作的PPG。咱们须要确定好各个 lambda 的比例。SAC的第二篇论文退出了主动调整温度系数 alpha 的机制，处于lambda2地位的温度alpha 曾经用于主动调整策略熵了，所以咱们只能批改lambda1。

reward scaling 是指间接让reward 乘以一个常数k (reward scale)，在不毁坏reward function 的前提下调整reward值，从而间接调整Q值到适合的大小。批改reward scale，相当于批改lambda1，从而让能够让 reward项和 entropy项它们传递的梯度大小靠近。与其余超参数不同，只有咱们通晓训练环境的累计收益范畴，咱们就能在训练前，间接随便地选定一个reward scaling的值，让累计收益的范畴落在 -1000~1000以内即可，不须要精密调整：

【温度系数、指标策略熵】 Temperature parameters (alpha)、target ‘policy entropy’。SAC的第二篇论文退出了主动调整温度系数 alpha 的机制：通过主动调整温度系数，做到让策略的熵维持在指标熵的左近（不让alpha过大而影响优化，也不让alpha过小而影响摸索）

策略熵的默认值是动作的个数的负log，详见SAC的第二篇论文 section 5 Automating Entropy Adjustment for Maximum Entropy 。SAC对这个超参数不敏感，个别不须要批改。有时候策略的熵太大将导致智能体无奈摸索到某些有劣势的state，此时须要将指标熵调小。

【温度系数 alpha 的学习率】 learning rate of alpha 温度系数alpha 最好应用 log 模式进行优化，因为alpha是示意倍数的负数。个别地，温度系数的学习率和网络参数的学习率保持一致（个别都是1e-4）。当环境随机因素过大，导致每个batch 算进去的策略熵 log_prob 不够稳固时，咱们须要调小温度系数的学习率。

【温度系数 alpha 的初始值】 initialization of alpha 温度系数的初始值能够轻易设置，只有初始值不过于离奇，它都能够被主动调整为适合的值。个别偷懒地将初始值设置为 log(0) 其实过大了，这会缩短SAC的预热工夫，我个别设置成更小的数值，详见 The alpha loss calculating of SAC is different from other repo · Issue #10 · Yonv1943/ElegantRL 。

5. 本人模型训练调参记录（TD3）

5.1 模型环境参数

惯例参数：

无人机初始地位	用户初始地位	无人机笼罩半径(米)	最大关联数	UAV航行间隔
【20，180】	【20，180】	【75，100】	【20，30】	【0，30】

时延记录:

前景（MB）	0.125	0.5	1	1.25	1.5
背景(MB)	0.5	2	4	5	6
local(ms)	13	52	105	—	150
UAV(ms)	47	29.4	39.7	—	50.6
coop(ms)	44	29.6	38.2	—-	47

超参数：

ACTOR_LR	CRITIC_LR	BATCH_SIZE	GAMMA	TAU
【1e-4 ，1e-5】	【1e-3 ，1e-4】	【256，512】	0.99】	0.005
EXPL_NOISE	policy_noise	noise_clip	policy_freq	hid_size
0.1、0.05	0.2、0.1	0.5	【1，8】默认：2	【128，512】

目前采纳组合有如下：

ACTOR_LR = 1e-4 # Actor网络的 learning rate 学习率 1e-3
CRITIC_LR = 1e-3 # Critic网络的 learning rate 1e-3
EXPL_NOISE = 0.05 # 动作噪声方差
self.hid_size=256
self.hid1_size=128
- policy_noise=0.1,
noise_clip=0.5,
policy_freq=2

5.2 调参成果：

能够看到模型训练的稳定性和收敛成果越来越好，调多了你也就晓得哪些超参数影响的大了

5.3 造成稳定的起因，而后采纳对应的解决方案：

如果在策略网络没有更新的状况下，Agent在环境中失去的分数差别过大。那么这是环境产生扭转造成的：
-1. 每一轮训练都须要 env.reset()，然而，有时候重置环境会扭转难度，这种状况下造成的稳定无奈打消。
-2. 有时候是因为DRL算法的泛化性不够好。此时咱们须要调大相干参数减少摸索，以训练出泛化性更好的策略。
如果在策略网络没有更新的状况下，Agent在环境中失去的分数差别较小。等到更新后，相邻两次的分数差别很大。那么这是环境产生扭转造成的： 1. 把 learning rate 调小一点。2. 有时候是因为算法适度激励摸索而导致的，调小相干参数即可。

关于机器学习:强化学习调参技巧二DDPGTD3SAC算法为例

1.训练环境如何正确编写

1.1 初始阶段：

1.2 改良阶段：

1.3 收尾阶段：

2. 超参数解释剖析

2.1 off-policy算法中常见的超参数

2.2 on-policy算法中常见的超参数

3. TD3特有的超参数

4. SAC特有的超参数

5. 本人模型训练调参记录（TD3）

5.1 模型环境参数

5.2 调参成果：

5.3 造成稳定的起因，而后采纳对应的解决方案：

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于机器学习:强化学习调参技巧二DDPGTD3SAC算法为例

1.训练环境如何正确编写

1.1 初始阶段：

1.2 改良阶段：

1.3 收尾阶段：

2. 超参数解释剖析

2.1 off-policy算法中常见的超参数

2.2 on-policy算法中常见的超参数

3. TD3特有的超参数

4. SAC特有的超参数

5. 本人模型训练调参记录（TD3）

5.1 模型环境参数

5.2 调参成果：

5.3 造成稳定的起因，而后采纳对应的解决方案：

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复