深度学习深度学习常用优化方法

jiezi

5 年前

作者：LogM

本文原载于 https://segmentfault.com/u/logm/articles，不允许转载~

文章中的数学公式若无法正确显示，请参见：正确显示数学公式的小技巧

$$
g_t = \bigtriangledown_{\theta_{t-1}} f(\theta_{t-1})
$$

$$
\Delta\theta_t = -\eta*g_t
$$

$$
m_t = \mu*m_{t-1}+g_t
$$

$$
\Delta\theta_t = -\eta*m_t
$$

$$\nu_t = \nu_{t-1} + g_t*g_t$$

$$\Delta\theta_t = \frac{g_t}{\sqrt{\nu_t+\epsilon}} * \eta$$

$$\nu_t = \mu * \nu_{t-1} + (1-\mu) * g_t*g_t$$

$$\Delta\theta_t = \frac{g_t}{\sqrt{\nu_t+\epsilon}} * \eta$$

RMSprop 是 AdaGrad 的升级版，区别是 $\nu_t$ 的计算方式：RMSprop 是移动平均，而 AdaGrad 是累加，越加越大。

$$\nu_t = \mu * \nu_{t-1} + (1-\mu) * g_t*g_t$$

$$\Delta\theta_t = \frac{g_t}{\sqrt{\nu_t+\epsilon}} * \sqrt{\Delta \hat\theta_{t-1}^2}$$

$$\hat\theta_{t}^2 = \mu * \hat\theta_{t-1}^2 + (1-\mu) * \Delta\theta_t * \Delta\theta_t$$

$$
m_t = \beta_{1}m_{t-1} + (1-\beta_1)g_t
$$

$$
\nu_t = \beta_{2}\nu_{t-1} + (1-\beta_2)g_t^2
$$

$$
\Delta\theta_t = \frac{\hat m_t}{\sqrt{\hat\nu_t+\epsilon}} * \eta
$$

$$
\hat m_t = \frac{m_t}{1-\beta_1^t},\space\space \hat\nu_t = \frac{\nu_t}{1-\beta_2^t}
$$

Adam 可以看做是将 momentum 和 RMSprop 的思想融合了起来。

1. SGD（随机梯度下降）