关于深度学习:深度学习教程-神经网络优化算法

作者：韩信子 @ShowMeAI
教程地址：http://www.showmeai.tech/tutorials/35
本文地址：http://www.showmeai.tech/article-detail/217
申明：版权所有，转载请分割平台与作者并注明出处

珍藏 ShowMeAI 查看更多精彩内容

本系列为吴恩达老师《深度学习专项课程 (Deep Learning Specialization)》学习与总结整顿所得，对应的课程视频能够在这里查看。

在 ShowMeAI 前一篇文章 深度学习的实用层面 中咱们对以下内容进行了介绍：

Train / Dev / Test sets 的切分和比例抉择
Bias 和 Variance 的相干常识
避免过拟合的办法：L2 正则化和 Dropout
规范化输出以放慢梯度降落速度和精度
梯度隐没和梯度爆炸的起因及解决办法
梯度查看

本篇内容开展介绍深度神经网络中的一些优化算法，通过应用这些技巧和办法来进步神经网络的训练速度和精度。

Batch 梯度降落法 ( 批梯度降落法 ) 是最罕用的梯度降落模式，它是基于整个训练集的梯度降落算法，在更新参数时应用所有的样本来进行更新。

对整个训练集进行梯度降落法的时候，咱们必须解决整个训练数据集，而后能力进行一步梯度降落，即每一步梯度降落法须要对整个训练集进行一次解决，如果训练数据集很大的时候，处理速度就会比较慢。

然而如果每次解决训练数据的一部分，基于这个子集进行梯度降落法，算法迭代速度会更快。而解决的这些一小部分训练子集即称为 Mini-Batch，这个算法也就是咱们说的Mini-Batch 梯度降落法。

Mini-Batch 梯度降落法 ( 小批量梯度降落法 ) 每次同时解决单个的 Mini-Batch，其余与 Batch 梯度降落法统一。

应用 Batch 梯度降落法，对整个训练集的一次遍历只能做一个梯度降落；而应用 Mini-Batch 梯度降落法，对整个训练集的一次遍历 (称为一个 epoch) 能做 Mini-Batch 个数个梯度降落。之后，能够始终遍历训练集，直到最初收敛到一个适合的精度。

Batch 梯度降落法和 Mini-Batch 梯度降落法 代价函数的变化趋势 如上图所示：

应用 Batch gradient descent，随着迭代次数减少，cost 是 一直减小 的。
应用 Mini-batch gradient descent，随着在不同的 mini-batch 上迭代训练，cost 并不是枯燥降落，而是 振荡降落 的，最终也能失去较低的 cost 值。呈现轻微振荡的起因是不同的 mini-batch 之间是有差别的。例如可能第一个子集 $(X^{{1}},Y^{{1}})$是好的子集，而第二个子集 $(X^{{2}},Y^{{2}})$蕴含了一些噪声 noise。呈现轻微振荡是失常的。

咱们在训练神经网络的时候，应用 mini-batch gradient descent，常常要指定一个 batch 批次的样本数量。而不同的 batch 大小会影响训练的过程，其中有 2 个特例，mini-batch gradient descent 会进化为不同的算法：

Mini-Batch 的大小为 1，即是 随机梯度降落法(stochastic gradient descent)，每个样本都是独立的 Mini-Batch。
Mini-Batch 的大小为 $m$(数据集大小)，即是 Batch 梯度降落法。

如上图，咱们比照一下 Batch gradient descent 和Stachastic gradient descent的梯度降落曲线。

图中蓝色的线代表 Batch gradient descent。Batch gradient descent 会 比拟安稳地靠近全局最小值，然而因为应用了所有 m 个样本，每次后退的速度有些慢。
图中紫色的线代表 Stochastic gradient descent。Stochastic gradient descent每次后退速度很快，然而路线波折，有较大的振荡，最终会在最小值左近来回稳定，难以真正达到最小值处。而且在数值解决上就不能应用向量化的办法来进步运算速度。

对所有 m 个训练样本执行一次梯度降落，每一次迭代工夫较长，训练过程慢。
绝对噪声低一些，幅度也大一些。
老本函数总是向减小的方向降落。

对每一个训练样本执行一次梯度降落，训练速度快，但 失落了向量化带来的计算减速。
有很多噪声，减小学习率能够适当。
老本函数总体趋势向全局最小值凑近，但永远不会收敛，而是始终在最小值左近稳定。

理论应用中，batch size 不能设置得太大（会偏向于 Batch gradient descent），也不能设置得太小（偏向于 Stochastic gradient descent）。

抉择一个 1<size<m 的适合的大小进行 Mini-Batch 梯度降落，能够实现疾速学习，也利用了向量化带来的益处，且老本函数的降落处于前两者之间。

mini-batch gradient descent 的梯度降落曲线如图 绿色曲线 所示，每次后退速度较快，且振荡较小，根本能靠近全局最小值。

吴恩达老师也给出了一些对于 batch 大小抉择的教训：

训练样本量小（如 $m \le 2000$），抉择 Batch 梯度降落法。
训练样本量大，抉择 Mini-Batch 梯度降落法。
与计算机的信息存储形式相适应，代码在 Batch 大小为 2 的幂次时运行要快一些，典型的大小为 $2^6$、$2^7$、…、$2^9$。
Batch 的大小要匹配 CPU/GPU 内存。

Batch 的大小是重要的超参数，须要依据教训疾速尝试，找到可能最无效地缩小老本函数的值。

后面提到了 batch 大小的抉择办法，当咱们确定 batch 大小后，在利用 mini-batch 梯度降落算法时，能够通过以下形式取得 1 个 Batch 的数据：

将数据集打乱
依照既定的大小宰割数据集

其中打乱数据集的代码：

# 取得样本数量
m = X.shape[1] 
# 对 m 个样本进行乱序
permutation = list(np.random.permutation(m))
# 取出洗牌之后的样本特色和标签
shuffled_X = X[:, permutation]
shuffled_Y = Y[:, permutation].reshape((1,m))

（上述 python 代码应用到 numpy 工具库，想理解更多的同学能够查看 ShowMeAI 的 图解数据分析 系列中的 numpy 教程，也能够通过 ShowMeAI 制作的 numpy 速查手册 疾速理解其应用办法）

代码解读：

np.random.permutation与 np.random.shuffle 有两处不同：

如果传给 permutation 一个矩阵，它会返回一个洗牌后的矩阵正本；而 shuffle 只是对一个矩阵进行洗牌，没有返回值。
如果传入一个整数，它会返回一个洗牌后的arange。

在进一步解说优化算法之前，咱们来对数学标记做一个对立和阐明：

咱们应用小括号上标 $i$示意训练集里的值，$x^{(i)}$是第 $i$个训练样本。
咱们应用中括号上标 $l$示意神经网络的层数，$z^{[l]}$示意神经网络中第 $l$层的 $z$值。
咱们应用上标 $t$来代表不同的 Batch 数据，即 $X^{t}$、$Y^{t}$。

上面咱们将介绍指数加权均匀（Exponentially weighted averages）的概念。

举个例子，记录半年内伦敦市的气温变动，并在二维立体上绘制进去，如下图所示：

看上去，温度数据仿佛有 noise，而且抖动较大。如果咱们心愿看到半年内气温的整体变化趋势，能够通过「挪动均匀」（moving average）的办法来对每天气温进行平滑解决。

例如咱们能够设 $V_0=0$，当成第 0 天的气温值。

第一天的气温与第 0 天的气温无关：

$$
V_1=0.9V_0+0.1\theta_1
$$

第二天的气温与第一天的气温无关：

$$
\begin{aligned}
V_2 &=0.9V_1+0.1\theta_2\\ &=0.9(0.9V_0+0.1\theta_1)+0.1\theta_2\\ &=0.9^2V_0+0.9\cdot0.1\theta_1+0.1\theta_2
\end{aligned}
$$

第三天的气温与第二天的气温无关：

$$
\begin{aligned}
V_3 &= 0.9V_2+0.1\theta_3\\
&= 0.9(0.9^2V_0+0.9\cdot0.1\theta_1+0.1\theta_2)+0.1\theta_3\\
&= 0.9^3V_0+0.9^2\cdot 0.1\theta_1+0.9\cdot 0.1\theta_2+0.1\theta_3
\end{aligned}
$$

即第 $t$天与第 $t-1$天的气温迭代关系为：

通过「挪动均匀」（moving average）解决失去的气温如下图红色曲线所示：

这种滑动均匀算法称为指数加权均匀（exponentially weighted average）。依据后面的例子，咱们能够看到它的推导公式个别模式为：$V_t=\beta V_{t-1}+(1-\beta)\theta_t$。

其中指数加权均匀的天数由 $\beta$值决定，近似示意为 $\frac{1}{1-\beta}$。下面的例子中：

当 $\beta=0.9$，则 $\frac{1}{1-\beta}=10$，示意将前 10 天进行指数加权均匀。
当 $\beta=0.98$，则 $\frac{1}{1-\beta}=50$，示意将前 50 天进行指数加权均匀。

$\beta$值越大，则指数加权均匀的天数越多，均匀后的趋势线就越平缓，然而同时也会向右平移。上图中绿色曲线和橙色曲线别离示意了 $\beta=0.98$和 $\beta=0.5$时，指数加权均匀的后果。

公式解释：

这里的 $\frac{1}{1-\beta}$是怎么来的呢？就规范数学公式来说，指数加权均匀算法跟之前所有天的数值都有关系。

然而指数是衰减的，个别认为衰减到 $\frac1e$就能够忽略不计了。因而，依据之前的推导公式，咱们只有证实 $\beta^{\frac{1}{1-\beta}}=\frac1e$就好了。

令 $\frac{1}{1-\beta}=N$，$N>0$，则 $\beta=1-\frac{1}{N}$，$\frac1N<1$。即证实转化为 $(1-\frac1N)^N=\frac1e$

显然，当 $N>>0$时，上述等式是近似成立的。这就简略解释了为什么指数加权均匀的天数的计算公式为 $\frac{1}{1-\beta}$。

综上，指数加权均匀 (Exponentially Weight Average) 是一种罕用的序列数据处理形式，计算公式为：

$$
S_t =
\begin{cases}
Y_1, &t = 1 \\
\beta S_{t-1} + (1-\beta)Y_t, &t > 1
\end{cases}
$$

其中 $Y_t$为 $t$下的理论值，$S_t$为 $t$下加权均匀后的值，$\beta$为权重值。

指数加权平均数在统计学中被称为“指数加权挪动平均值”。

咱们将指数加权均匀公式的个别模式写下来：

$$
\begin{aligned}
V_t &=\beta V_{t-1}+(1-\beta)\theta_t\\
& =(1-\beta)\theta_t+(1-\beta)\cdot\beta\cdot\theta_{t-1}+(1-\beta)\cdot \beta^2\cdot\theta_{t-2}+\cdots+(1-\beta)\cdot \beta^{t-1}\cdot \theta_1+\beta^t\cdot V_0
\end{aligned}
$$

察看上述推导失去的计算公式，其中：

$\theta_t$,$\theta_{t-1}$,$\theta_{t-2}$,…,$\theta_1$是原始数据值。
$(1-\beta)$,$(1-\beta)\beta$,$(1-\beta)\beta^2$,…,$(1-\beta)\beta^{t-1}$是相似指数曲线，从右向左，呈指数降落的。

如果咱们把每个工夫点的 $\theta$和衰减指数写成向量模式，则最终指数加权均匀后果 $V_t$相当于两者的点乘。将原始数据值与衰减指数点乘，相当于做了指数衰减，随间隔越远衰减越厉害（留神到 $\beta$小于 1），有如下结论：

离得越近的数据点，影响越大，离得越远的数据点，影响越小。

当 $\beta = 0.9$时，

$$v_{100} = 0.9v_{99} + 0.1 \theta_{100}$$

$$v_{99} = 0.9v_{98} + 0.1 \theta_{99}$$

$$v_{98} = 0.9v_{97} + 0.1 \theta_{98}$$

开展：

$$
v_{100} = 0.1 \theta_{100} + 0.1 * 0.9 \theta_{99} + 0.1 * {(0.9)}^2 \theta_{98} + \dots
$$

其中，$\theta_i$指第 $i$天的理论数据。所有 $\theta$后面的系数 (不包含 0.1) 相加起来为 1 或者靠近于 1，这些系数被称作 偏差修改(Bias Correction)。

依据函数极限的一条定理：

$$
{\lim_{\beta\to 0}}(1 – \beta)^{\frac{1}{\beta}} = \frac{1}{e} \approx 0.368
$$

当 $\beta = 0.9$时，能够当作把过来 10 天的气温指数加权均匀作为当日的气温，因为 10 天后权重曾经降落到了当天的 1 / 3 左右。同理，当 $\beta = 0.98$时，能够把过来 50 天的气温指数加权均匀作为当日的气温。

因而，在计算以后时刻的平均值时，只须要前一天的平均值和以后时刻的值。

$$
v_t = \beta v_{t-1} + (1 – \beta)\theta_t
$$

在理论代码中，只须要一直迭代赋值更新 $v$即可：

$$
v := \beta v + (1 – \beta)\theta_t
$$

指数均匀加权并不是最精准的计算平均数的办法，你能够间接计算过来 10 天或 50 天的平均值来失去更好的预计，但毛病是保留数据须要占用更多内存，执行更加简单，计算成本更加昂扬。

指数加权平均数公式的益处之一在于它只须要一行代码，且占用极少内存，因而效率极高，且节省成本。

当 $\beta=0.98$时，后面提到的气温示例，指数加权均匀后果如绿色曲线。但实际上实在曲线如 紫色曲线 所示：

紫色曲线与绿色曲线的区别是，紫色曲线开始的时候绝对较低一些。因为开始时设置 $v_0 = 0$，所以初始值会绝对小一些，直到前面受后面的影响慢慢变小，趋于失常。

修改这种问题的办法是进行 偏移校对（bias correction），即在每次计算完 $v_t$后，对 $v_t$进行下式解决：

$$
{V_t}=\frac{V_t}{1-\beta^t}
$$

换算到迭代公式中，即有 $v_t = \frac{\beta v_{t-1} + (1 – \beta)\theta_t}{{1-\beta^t}}$。

察看上式：随着 $t$的增大，$\beta$的 $t$次方趋近于 0。因而当 $t$很大的时候，偏差修改简直没有作用，然而在后期学习能够帮忙更好的预测数据。

大家曾经理解了指数加权均匀，当初咱们回到神经网络优化算法，介绍一下动量梯度降落算法，其速度要比传统的梯度降落算法快很多。做法是在每次训练时，计算梯度的指数加权平均数，并利用该值来更新权重 $W$和常数项 $b$。

具体过程 为：for l = 1, .. , L

$$v_{dW^{[l]}} = \beta v_{dW^{[l]}} + (1 – \beta) dW^{[l]}$$

$$v_{db^{[l]}} = \beta v_{db^{[l]}} + (1 – \beta) db^{[l]}$$

$$W^{[l]} := W^{[l]} – \alpha v_{dW^{[l]}}$$

$$b^{[l]} := b^{[l]} – \alpha v_{db^{[l]}}$$

其中，将动量衰减参数 $\beta$设置为 0.9 是超参数的一个常见且成果不错的抉择。当 $\beta$被设置为 0 时，显然就成了 Batch 梯度降落法。

咱们用下图来比照一下优化算法的优化过程

图中：

蓝色曲线：应用个别的梯度降落的优化过程，因为存在高低稳定，减缓了梯度降落的速度，因而只能应用一个较小的学习率进行迭代。
紫色曲线：应用个别梯度降落 + 较大的学习率，后果可能偏离函数的范畴。
红色曲线：应用动量梯度降落，通过累加过来的梯度值来缩小到达最小值门路上的稳定，减速了收敛，因而在横轴方向降落得更快。

以后后梯度方向统一时，动量梯度降落可能减速学习；而前后梯度方向不统一时，动量梯度降落可能克制震荡。

另外，在 10 次迭代之后，挪动均匀曾经不再是一个具备偏差的预测。因而理论在应用梯度降落法或者动量梯度降落法时，不会同时进行偏差修改。

补充：在其它文献资料中，动量梯度降落还有另外一种写法：

$V_{dW}=\beta V_{dW}+dW$

$V_{db}=\beta V_{db}+db$

即消去了 $dW$和 $db$前的系数 $(1-\beta)$。这样简化了表达式，然而学习因子 $\alpha$相当于变成了 $\frac{\alpha}{1-\beta}$，示意 $\alpha$也受 $\beta$的影响。从成果上来说，这种写法也是能够的，然而不够直观，且调参波及到 $\alpha$，不够不便。所以，理论利用中，举荐第一种动量梯度降落的表达式。

将老本函数设想为一个碗状，从顶部开始静止的小球向下滚，其中 $dw$，$db$设想成球的加速度；而 $v_{dw}$、$v_{db}$相当于速度。

小球在向下滚动的过程中，因为加速度的存在速度会变快，然而因为 $\beta$的存在，其值小于 1，能够认为是摩擦力，所以球不会有限减速上来。

RMSProp(Root Mean Square Propagation，均方根流传)是另外一种优化梯度降落速度的算法，它在对梯度进行指数加权均匀的根底上，引入平方和平方根。具体过程为(省略了 $ l$)：

$$s_{dw} = \beta s_{dw} + (1 – \beta)(dw)^2$$

$$s_{db} = \beta s_{db} + (1 – \beta)(db)^2$$

$$w := w – \alpha \frac{dw}{\sqrt{s_{dw} + \epsilon}}$$

$$b := b – \alpha \frac{db}{\sqrt{s_{db} + \epsilon}}$$

其中，$\varepsilon$是一个实际操作时加上的较小数(例如 $ 10^{-8}$)，为了避免分母太小而导致的数值不稳固。

如图所示，蓝色轨迹 代表初始的挪动，能够看到在 $b$方向上走得比拟平缓 (即 $ db$ 较大)，相比起来 $dw$较小，这影响了优化速度。

因而，在采纳 RMSProp 算法后，因为 $(dw)^2$较小、$(db)^2$较大，进而 $s_{dw}$也会较小、$s_{db}$也会较大，最终使得 $\frac{dw}{\sqrt{s_{dw} + \varepsilon}}$较大，而 $\frac{db}{\sqrt{s_{db} + \varepsilon}}$较小。前面的更新就会像绿色轨迹一样，显著好于蓝色的更新曲线。RMSProp 减小某些维度梯度更新稳定较大的状况，使降落速度变得更快。

RMSProp 有助于缩小到达最小值门路上的摆动，并容许应用一个更大的学习率 $\alpha$，从而放慢算法学习速度。并且，它和 Adam 优化算法已被证实实用于不同的深度学习网络结构。

留神，$\beta$也是一个超参数。

比照原始梯度降落与 RMSProp 算法优化过程，如下图所示（上方为原始梯度降落，下方为 RMSProp）

Adam (Adaptive Moment Estimation，自适应矩预计)算法联合了动量梯度降落算法和 RMSprop 算法，通常有超过二者独自时的成果。具体过程如下(省略了 $ l$)：

首先进行初始化：

$$v_{dW} = 0, s_{dW} = 0, v_{db} = 0, s_{db} = 0$$

用每一个 Mini-Batch 计算 $dW$、$db$，第 $t$次迭代时：

$$v_{dW} = \beta_1 v_{dW} + (1 – \beta_1) dW$$

$$v_{db} = \beta_1 v_{db} + (1 – \beta_1) db$$

$$s_{dW} = \beta_2 s_{dW} + (1 – \beta_2) {(dW)}^2$$

$$s_{db} = \beta_2 s_{db} + (1 – \beta_2) {(db)}^2$$

个别应用 Adam 算法时须要计算偏差修改：

$$v^{corrected}_{dW} = \frac{v_{dW}}{1-{\beta_1}^t}$$

$$v^{corrected}_{db} = \frac{v_{db}}{1-{\beta_1}^t}$$

$$s^{corrected}_{dW} = \frac{s_{dW}}{1-{\beta_2}^t}$$

$$s^{corrected}_{db} = \frac{s_{db}}{1-{\beta_2}^t}$$

所以，更新 $W$、$b$时有：

$$
W := W – \alpha \frac{v^{corrected}_{dW}}{{\sqrt{s^{corrected}_{dW}} + \varepsilon}}
$$

$$
b := b – \alpha \frac{v^{corrected}_{db}}{{\sqrt{s^{corrected}_{db}} + \varepsilon}}
$$

Adam 优化算法有很多的超参数，其中

学习率 $\alpha$：须要尝试一系列的值，来寻找比拟适合的
$\beta_1$：罕用的缺省值为 0.9
$\beta_2$：Adam 算法的作者倡议为 0.999
$\varepsilon$：不重要，不会影响算法体现，Adam 算法的作者倡议为 $10^{-8}$

$\beta_1$、$\beta_2$、$\varepsilon$通常不须要调试。

比照原始梯度降落与 RMSProp 算法优化过程，如下图所示（上方为原始梯度降落，下方为 Adam）

减小学习率 $\alpha$也能无效进步神经网络训练速度，这种办法被称为学习率衰减法（learning rate decay）。

学习率衰减就是随着迭代次数减少，学习率 $\alpha$逐步减小。如下图示例。

① 蓝色折线 示意设置一个固定的学习率 $\alpha$

在最小值点左近，因为不同的 Batch 中存在肯定的噪声，因而不会准确收敛，而是始终在最小值四周一个较大的范畴内稳定。

② 绿色折线 示意随着工夫缓缓缩小学习率 $\alpha$的大小

在初期 $\alpha$较大时，降落的步长较大，能以较快的速度进行梯度降落；
前期逐渐减小 $\alpha$的值，即减小步长，有助于算法的收敛，更容易靠近最优解。

最罕用的学习率衰减办法：

$$
\alpha = \frac{1}{1 + decay\_rate \ast epoch\_num} \ast \alpha_0
$$

其中，decay_rate 为衰减率(超参数)，epoch_num 为将所有的训练样本残缺过一遍的次数。

指数衰减：$\alpha = 0.95^{epoch\_num} \ast \alpha_0$
其余：$\alpha = \frac{k}{\sqrt{epoch\_num}} \ast \alpha_0$
离散降落

对于较小的模型，也有人会在训练时依据进度手动调小学习率。

在应用梯度降落算法一直减小 cost function 时，可能会失去 部分最优解（local optima）而不是 全局最优解（global optima）。

之前咱们对部分最优解的了解是形如碗状的凹槽，如图右边所示。然而在神经网络中，local optima 的概念产生了变动。精确来说，大部分梯度为零的“最长处”并不是这些凹槽处，而是形如左边所示的马鞍状，称为 saddle point。

所以在深度学习损失函数中，梯度为零并不能保障都是convex（极小值），也有可能是concave（极大值）。特地是在神经网络中参数很多的状况下，所有参数梯度为零的点很可能都是左边所示的马鞍状的 saddle point，而不是右边那样的 local optimum。

相似马鞍状的 plateaus 会升高神经网络学习速度。Plateaus 是梯度接近于零的平缓区域，如图所示。在 plateaus 上梯度很小，后退迟缓，达到 saddle point 须要很长时间。达到 saddle point 后，因为随机扰动，梯度个别可能沿着图中绿色箭头，来到 saddle point，继续前进，只是在 plateaus 上破费了太多工夫。

论断：

在训练较大的神经网络、存在大量参数，并且老本函数被定义在较高的维度空间时，困在极差的部分最优中是不大可能的；
鞍点左近的安稳段会使得学习十分迟缓，而这也是动量梯度降落法、RMSProp 以及 Adam 优化算法可能减速学习的起因，它们能帮忙尽早走出安稳段。

图解数据分析
numpy 速查手册

图解 Python 编程：从入门到精通系列教程
图解数据分析：从入门到精通系列教程
图解 AI 数学根底：从入门到精通系列教程
图解大数据技术：从入门到精通系列教程
图解机器学习算法：从入门到精通系列教程
机器学习实战：手把手教你玩转机器学习系列
深度学习教程 | 吴恩达专项课程 · 全套笔记解读

深度学习教程 | 深度学习概论
深度学习教程 | 神经网络根底
深度学习教程 | 浅层神经网络
深度学习教程 | 深层神经网络
深度学习教程 | 深度学习的实用层面
深度学习教程 | 神经网络优化算法
深度学习教程 | 网络优化：超参数调优、正则化、批归一化和程序框架
深度学习教程 | AI 利用实际策略（上）
深度学习教程 | AI 利用实际策略（下）
深度学习教程 | 卷积神经网络解读
深度学习教程 | 经典 CNN 网络实例详解
深度学习教程 | CNN 利用：指标检测
深度学习教程 | CNN 利用：人脸识别和神经格调转换
深度学习教程 | 序列模型与 RNN 网络
深度学习教程 | 自然语言解决与词嵌入
深度学习教程 | Seq2seq 序列模型和注意力机制

关于深度学习:深度学习教程-神经网络优化算法

引言

1.Batch 梯度降落法

2.Mini-Batch 梯度降落法

2.1 Batch 大小及影响

(1) Batch 梯度降落法（Batch gradient descent）

(2) 随机梯度降落法（Stochastic gradient descent）

(3) Mini-Batch gradient descent

2.2 Batch 大小的抉择

2.3 取得 Mini-Batch 的步骤

2.4 符号示意

3. 指数加权均匀

3.1 了解指数均匀加权

3.2 指数均匀加权的偏差修改

4. 动量梯度降落法

4.1 从指数加权均匀到动量梯度降落

4.2 梯度降落 vs 动量梯度降落

动量梯度降落法的形象解释

5.RMSProp 算法

6.Adam 优化算法

6.1 Adam 算法介绍

6.2 Adam 超参数的抉择

7. 学习率衰减

8. 部分最优问题

参考资料

ShowMeAI 系列教程举荐

举荐文章

Just My Socks（注册教程内含优惠码）

关于深度学习:深度学习教程-神经网络优化算法

引言

1.Batch 梯度降落法

2.Mini-Batch 梯度降落法

2.1 Batch 大小及影响

(1) Batch 梯度降落法（Batch gradient descent）

(2) 随机梯度降落法（Stochastic gradient descent）

(3) Mini-Batch gradient descent

2.2 Batch 大小的抉择

2.3 取得 Mini-Batch 的步骤

2.4 符号示意

3. 指数加权均匀

3.1 了解指数均匀加权

3.2 指数均匀加权的偏差修改

4. 动量梯度降落法

4.1 从指数加权均匀到动量梯度降落

4.2 梯度降落 vs 动量梯度降落

动量梯度降落法的形象解释

5.RMSProp 算法

6.Adam 优化算法

6.1 Adam 算法介绍

6.2 Adam 超参数的抉择

7. 学习率衰减

8. 部分最优问题

参考资料

ShowMeAI 系列教程举荐

举荐文章

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）