作者：韩信子@ShowMeAI
教程地址：http://www.showmeai.tech/tutorials/35
本文地址：http://www.showmeai.tech/article-detail/217
申明：版权所有，转载请分割平台与作者并注明出处

珍藏ShowMeAI查看更多精彩内容

本系列为吴恩达老师《深度学习专项课程(Deep Learning Specialization)》学习与总结整顿所得，对应的课程视频能够在这里查看。

引言

在ShowMeAI前一篇文章 深度学习的实用层面 中咱们对以下内容进行了介绍：

Train / Dev / Test sets的切分和比例抉择
Bias和Variance的相干常识
避免过拟合的办法：L2正则化和Dropout
规范化输出以放慢梯度降落速度和精度
梯度隐没和梯度爆炸的起因及解决办法
梯度查看

本篇内容开展介绍深度神经网络中的一些优化算法，通过应用这些技巧和办法来进步神经网络的训练速度和精度。

1.Batch梯度降落法

Batch梯度降落法(批梯度降落法)是最罕用的梯度降落模式，它是基于整个训练集的梯度降落算法，在更新参数时应用所有的样本来进行更新。

对整个训练集进行梯度降落法的时候，咱们必须解决整个训练数据集，而后能力进行一步梯度降落，即每一步梯度降落法须要对整个训练集进行一次解决，如果训练数据集很大的时候，处理速度就会比较慢。

然而如果每次解决训练数据的一部分，基于这个子集进行梯度降落法，算法迭代速度会更快。而解决的这些一小部分训练子集即称为Mini-Batch，这个算法也就是咱们说的Mini-Batch梯度降落法。

2.Mini-Batch梯度降落法

Mini-Batch梯度降落法(小批量梯度降落法)每次同时解决单个的Mini-Batch，其余与Batch梯度降落法统一。

应用Batch梯度降落法，对整个训练集的一次遍历只能做一个梯度降落；而应用Mini-Batch梯度降落法，对整个训练集的一次遍历(称为一个epoch)能做Mini-Batch个数个梯度降落。之后，能够始终遍历训练集，直到最初收敛到一个适合的精度。

Batch梯度降落法和Mini-Batch梯度降落法代价函数的变化趋势如上图所示：

应用Batch gradient descent，随着迭代次数减少，cost是一直减小的。
应用Mini-batch gradient descent，随着在不同的mini-batch上迭代训练，cost并不是枯燥降落，而是振荡降落的，最终也能失去较低的cost值。呈现轻微振荡的起因是不同的mini-batch之间是有差别的。例如可能第一个子集$ (X^{{1}},Y^{{1}})$是好的子集，而第二个子集$ (X^{{2}},Y^{{2}})$蕴含了一些噪声noise。呈现轻微振荡是失常的。

2.1 Batch大小及影响

咱们在训练神经网络的时候，应用mini-batch gradient descent，常常要指定一个batch批次的样本数量。而不同的batch大小会影响训练的过程，其中有2个特例，mini-batch gradient descent会进化为不同的算法：

Mini-Batch的大小为1，即是随机梯度降落法(stochastic gradient descent)，每个样本都是独立的Mini-Batch。
Mini-Batch的大小为$ m$(数据集大小)，即是Batch梯度降落法。

如上图，咱们比照一下Batch gradient descent和Stachastic gradient descent的梯度降落曲线。

图中蓝色的线代表Batch gradient descent。Batch gradient descent会比拟安稳地靠近全局最小值，然而因为应用了所有m个样本，每次后退的速度有些慢。
图中紫色的线代表Stochastic gradient descent。Stochastic gradient descent每次后退速度很快，然而路线波折，有较大的振荡，最终会在最小值左近来回稳定，难以真正达到最小值处。而且在数值解决上就不能应用向量化的办法来进步运算速度。

(1) Batch梯度降落法（Batch gradient descent）

对所有 m 个训练样本执行一次梯度降落，每一次迭代工夫较长，训练过程慢。
绝对噪声低一些，幅度也大一些。
老本函数总是向减小的方向降落。

(2) 随机梯度降落法（Stochastic gradient descent）

对每一个训练样本执行一次梯度降落，训练速度快，但失落了向量化带来的计算减速。
有很多噪声，减小学习率能够适当。
老本函数总体趋势向全局最小值凑近，但永远不会收敛，而是始终在最小值左近稳定。

(3) Mini-Batch gradient descent

理论应用中，batch size不能设置得太大（会偏向于Batch gradient descent），也不能设置得太小（偏向于Stochastic gradient descent）。

抉择一个1<size<m的适合的大小进行Mini-Batch梯度降落，能够实现疾速学习，也利用了向量化带来的益处，且老本函数的降落处于前两者之间。

mini-batch gradient descent的梯度降落曲线如图绿色曲线所示，每次后退速度较快，且振荡较小，根本能靠近全局最小值。

2.2 Batch大小的抉择

吴恩达老师也给出了一些对于batch大小抉择的教训：

训练样本量小（如$ m \le 2000$），抉择Batch梯度降落法。
训练样本量大，抉择Mini-Batch梯度降落法。
与计算机的信息存储形式相适应，代码在Batch大小为2的幂次时运行要快一些，典型的大小为$ 2^6$、$ 2^7$、…、$ 2^9$。
Batch的大小要匹配CPU/GPU内存。

Batch的大小是重要的超参数，须要依据教训疾速尝试，找到可能最无效地缩小老本函数的值。

2.3 取得Mini-Batch的步骤

后面提到了batch大小的抉择办法，当咱们确定batch大小后，在利用mini-batch梯度降落算法时，能够通过以下形式取得1个Batch的数据：

将数据集打乱
依照既定的大小宰割数据集

其中打乱数据集的代码：

# 取得样本数量m = X.shape[1] # 对m个样本进行乱序permutation = list(np.random.permutation(m))# 取出洗牌之后的样本特色和标签shuffled_X = X[:, permutation]shuffled_Y = Y[:, permutation].reshape((1,m))

（上述python代码应用到numpy工具库，想理解更多的同学能够查看ShowMeAI的 图解数据分析 系列中的numpy教程，也能够通过ShowMeAI制作的 numpy速查手册 疾速理解其应用办法）

代码解读：

np.random.permutation与np.random.shuffle有两处不同：

如果传给permutation一个矩阵，它会返回一个洗牌后的矩阵正本；而shuffle只是对一个矩阵进行洗牌，没有返回值。
如果传入一个整数，它会返回一个洗牌后的arange。

2.4 符号示意

在进一步解说优化算法之前，咱们来对数学标记做一个对立和阐明：

咱们应用小括号上标$ i$示意训练集里的值，$ x^{(i)}$是第$ i$个训练样本。
咱们应用中括号上标$ l$示意神经网络的层数，$ z^{[l]}$示意神经网络中第$ l$层的$ z$值。
咱们应用上标$ t$来代表不同的Batch数据，即$ X^{t}$、$ Y^{t}$。

3.指数加权均匀

上面咱们将介绍指数加权均匀（Exponentially weighted averages）的概念。

举个例子，记录半年内伦敦市的气温变动，并在二维立体上绘制进去，如下图所示：

看上去，温度数据仿佛有noise，而且抖动较大。如果咱们心愿看到半年内气温的整体变化趋势，能够通过「挪动均匀」（moving average）的办法来对每天气温进行平滑解决。

例如咱们能够设$ V_0=0$，当成第0天的气温值。

第一天的气温与第0天的气温无关：

$$V_1=0.9V_0+0.1\theta_1$$

第二天的气温与第一天的气温无关：

$$\begin{aligned}V_2 &=0.9V_1+0.1\theta_2\\ &=0.9(0.9V_0+0.1\theta_1)+0.1\theta_2\\ &=0.9^2V_0+0.9\cdot0.1\theta_1+0.1\theta_2 \end{aligned}$$

第三天的气温与第二天的气温无关：

$$\begin{aligned}V_3 &= 0.9V_2+0.1\theta_3\\ &= 0.9(0.9^2V_0+0.9\cdot0.1\theta_1+0.1\theta_2)+0.1\theta_3\\ &= 0.9^3V_0+0.9^2\cdot 0.1\theta_1+0.9\cdot 0.1\theta_2+0.1\theta_3 \end{aligned}$$

即第$ t$天与第$ t-1$天的气温迭代关系为：

通过「挪动均匀」（moving average）解决失去的气温如下图红色曲线所示：

这种滑动均匀算法称为指数加权均匀（exponentially weighted average）。依据后面的例子，咱们能够看到它的推导公式个别模式为：$ V_t=\beta V_{t-1}+(1-\beta)\theta_t$。

其中指数加权均匀的天数由$ \beta$值决定，近似示意为$ \frac{1}{1-\beta}$。下面的例子中：

当$ \beta=0.9$，则$ \frac{1}{1-\beta}=10$，示意将前10天进行指数加权均匀。
当$ \beta=0.98$，则$ \frac{1}{1-\beta}=50$，示意将前50天进行指数加权均匀。

$ \beta$值越大，则指数加权均匀的天数越多，均匀后的趋势线就越平缓，然而同时也会向右平移。上图中绿色曲线和橙色曲线别离示意了$ \beta=0.98$和$ \beta=0.5$时，指数加权均匀的后果。

公式解释：
这里的$ \frac{1}{1-\beta}$是怎么来的呢？就规范数学公式来说，指数加权均匀算法跟之前所有天的数值都有关系。
然而指数是衰减的，个别认为衰减到$ \frac1e$就能够忽略不计了。因而，依据之前的推导公式，咱们只有证实$ \beta^{\frac{1}{1-\beta}}=\frac1e$就好了。
令$ \frac{1}{1-\beta}=N$，$ N>0$，则$ \beta=1-\frac{1}{N}$，$ \frac1N<1$。即证实转化为 $ (1-\frac1N)^N=\frac1e$
显然，当$ N>>0$时，上述等式是近似成立的。这就简略解释了为什么指数加权均匀的天数的计算公式为$ \frac{1}{1-\beta}$。

综上，指数加权均匀(Exponentially Weight Average)是一种罕用的序列数据处理形式，计算公式为：

$$S_t = \begin{cases} Y_1, &t = 1 \\ \beta S_{t-1} + (1-\beta)Y_t, &t > 1 \end{cases}$$

其中$ Y_t$为$ t$下的理论值，$ S_t$为$ t$下加权均匀后的值，$ \beta$为权重值。

指数加权平均数在统计学中被称为“指数加权挪动平均值”。

3.1 了解指数均匀加权

咱们将指数加权均匀公式的个别模式写下来：

$$\begin{aligned}V_t &=\beta V_{t-1}+(1-\beta)\theta_t\\& =(1-\beta)\theta_t+(1-\beta)\cdot\beta\cdot\theta_{t-1}+(1-\beta)\cdot \beta^2\cdot\theta_{t-2}+\cdots+(1-\beta)\cdot \beta^{t-1}\cdot \theta_1+\beta^t\cdot V_0\end{aligned}$$

察看上述推导失去的计算公式，其中：

$ \theta_t$,$ \theta_{t-1}$,$ \theta_{t-2}$,...,$ \theta_1$是原始数据值。
$ (1-\beta)$,$ (1-\beta)\beta$,$ (1-\beta)\beta^2$,...,$ (1-\beta)\beta^{t-1}$是相似指数曲线，从右向左，呈指数降落的。

如果咱们把每个工夫点的$ \theta$和衰减指数写成向量模式，则最终指数加权均匀后果$ V_t$相当于两者的点乘。将原始数据值与衰减指数点乘，相当于做了指数衰减，随间隔越远衰减越厉害（留神到$ \beta$小于1），有如下结论：

离得越近的数据点，影响越大，离得越远的数据点，影响越小。

当$ \beta = 0.9$时，

$$v_{100} = 0.9v_{99} + 0.1 \theta_{100}$$

$$v_{99} = 0.9v_{98} + 0.1 \theta_{99}$$

$$v_{98} = 0.9v_{97} + 0.1 \theta_{98}$$

开展：

$$v_{100} = 0.1 \theta_{100} + 0.1 * 0.9 \theta_{99} + 0.1 * {(0.9)}^2 \theta_{98} + \dots$$

其中，$ \theta_i$指第$ i$天的理论数据。所有$ \theta$后面的系数(不包含0.1)相加起来为1或者靠近于1，这些系数被称作偏差修改(Bias Correction)。

依据函数极限的一条定理：

$${\lim_{\beta\to 0}}(1 - \beta)^{\frac{1}{\beta}} = \frac{1}{e} \approx 0.368$$

当$ \beta = 0.9$时，能够当作把过来10天的气温指数加权均匀作为当日的气温，因为10天后权重曾经降落到了当天的1/3左右。同理，当$ \beta = 0.98$时，能够把过来50天的气温指数加权均匀作为当日的气温。

因而，在计算以后时刻的平均值时，只须要前一天的平均值和以后时刻的值。

$$v_t = \beta v_{t-1} + (1 - \beta)\theta_t$$

在理论代码中，只须要一直迭代赋值更新$ v$即可：

$$v := \beta v + (1 - \beta)\theta_t$$

指数均匀加权并不是最精准的计算平均数的办法，你能够间接计算过来10天或50天的平均值来失去更好的预计，但毛病是保留数据须要占用更多内存，执行更加简单，计算成本更加昂扬。

指数加权平均数公式的益处之一在于它只须要一行代码，且占用极少内存，因而效率极高，且节省成本。

3.2 指数均匀加权的偏差修改

当$ \beta=0.98$时，后面提到的气温示例，指数加权均匀后果如绿色曲线。但实际上实在曲线如紫色曲线所示：

紫色曲线与绿色曲线的区别是，紫色曲线开始的时候绝对较低一些。因为开始时设置$ v_0 = 0$，所以初始值会绝对小一些，直到前面受后面的影响慢慢变小，趋于失常。

修改这种问题的办法是进行偏移校对（bias correction），即在每次计算完$ v_t$后，对$ v_t$进行下式解决：

$${V_t}=\frac{V_t}{1-\beta^t}$$

换算到迭代公式中，即有$ v_t = \frac{\beta v_{t-1} + (1 - \beta)\theta_t}{{1-\beta^t}}$。

察看上式：随着$ t$的增大，$ \beta$的$ t$次方趋近于0。因而当$ t$很大的时候，偏差修改简直没有作用，然而在后期学习能够帮忙更好的预测数据。

4.动量梯度降落法

4.1 从指数加权均匀到动量梯度降落

大家曾经理解了指数加权均匀，当初咱们回到神经网络优化算法，介绍一下动量梯度降落算法，其速度要比传统的梯度降落算法快很多。做法是在每次训练时，计算梯度的指数加权平均数，并利用该值来更新权重$ W$和常数项$ b$。

具体过程为：for l = 1, .. , L

$$v_{dW^{[l]}} = \beta v_{dW^{[l]}} + (1 - \beta) dW^{[l]}$$

$$v_{db^{[l]}} = \beta v_{db^{[l]}} + (1 - \beta) db^{[l]}$$

$$W^{[l]} := W^{[l]} - \alpha v_{dW^{[l]}}$$

$$b^{[l]} := b^{[l]} - \alpha v_{db^{[l]}}$$

其中，将动量衰减参数$ \beta$设置为0.9是超参数的一个常见且成果不错的抉择。当$ \beta$被设置为0时，显然就成了Batch梯度降落法。

4.2 梯度降落 vs 动量梯度降落

咱们用下图来比照一下优化算法的优化过程

图中：

蓝色曲线：应用个别的梯度降落的优化过程，因为存在高低稳定，减缓了梯度降落的速度，因而只能应用一个较小的学习率进行迭代。
紫色曲线：应用个别梯度降落+较大的学习率，后果可能偏离函数的范畴。
红色曲线：应用动量梯度降落，通过累加过来的梯度值来缩小到达最小值门路上的稳定，减速了收敛，因而在横轴方向降落得更快。

以后后梯度方向统一时，动量梯度降落可能减速学习；而前后梯度方向不统一时，动量梯度降落可能克制震荡。

另外，在10次迭代之后，挪动均匀曾经不再是一个具备偏差的预测。因而理论在应用梯度降落法或者动量梯度降落法时，不会同时进行偏差修改。

补充：在其它文献资料中，动量梯度降落还有另外一种写法：
$ V_{dW}=\beta V_{dW}+dW$
$ V_{db}=\beta V_{db}+db$
即消去了$ dW$和$ db$前的系数$ (1-\beta)$。这样简化了表达式，然而学习因子$ \alpha$相当于变成了$ \frac{\alpha}{1-\beta}$，示意$ \alpha$也受$ \beta$的影响。从成果上来说，这种写法也是能够的，然而不够直观，且调参波及到$ \alpha$，不够不便。所以，理论利用中，举荐第一种动量梯度降落的表达式。

动量梯度降落法的形象解释

将老本函数设想为一个碗状，从顶部开始静止的小球向下滚，其中$ dw$，$ db$设想成球的加速度；而$ v_{dw}$、$ v_{db}$相当于速度。

小球在向下滚动的过程中，因为加速度的存在速度会变快，然而因为$ \beta$的存在，其值小于1，能够认为是摩擦力，所以球不会有限减速上来。

5.RMSProp 算法

RMSProp(Root Mean Square Propagation，均方根流传)是另外一种优化梯度降落速度的算法，它在对梯度进行指数加权均匀的根底上，引入平方和平方根。具体过程为(省略了$ l$)：

$$s_{dw} = \beta s_{dw} + (1 - \beta)(dw)^2$$

$$s_{db} = \beta s_{db} + (1 - \beta)(db)^2$$

$$w := w - \alpha \frac{dw}{\sqrt{s_{dw} + \epsilon}}$$

$$b := b - \alpha \frac{db}{\sqrt{s_{db} + \epsilon}}$$

其中，$ \varepsilon$是一个实际操作时加上的较小数(例如$ 10^{-8}$)，为了避免分母太小而导致的数值不稳固。

如图所示，蓝色轨迹代表初始的挪动，能够看到在$ b$方向上走得比拟平缓(即$ db$较大)，相比起来$ dw$较小，这影响了优化速度。

因而，在采纳RMSProp算法后，因为$ (dw)^2$较小、$ (db)^2$较大，进而$ s_{dw}$也会较小、$ s_{db}$也会较大，最终使得$ \frac{dw}{\sqrt{s_{dw} + \varepsilon}}$较大，而$ \frac{db}{\sqrt{s_{db} + \varepsilon}}$较小。前面的更新就会像绿色轨迹一样，显著好于蓝色的更新曲线。RMSProp减小某些维度梯度更新稳定较大的状况，使降落速度变得更快。

RMSProp有助于缩小到达最小值门路上的摆动，并容许应用一个更大的学习率$ \alpha$，从而放慢算法学习速度。并且，它和Adam优化算法已被证实实用于不同的深度学习网络结构。

留神，$ \beta$也是一个超参数。

比照原始梯度降落与RMSProp算法优化过程，如下图所示（上方为原始梯度降落，下方为RMSProp）

6.Adam 优化算法

6.1 Adam算法介绍

Adam (Adaptive Moment Estimation，自适应矩预计)算法联合了动量梯度降落算法和RMSprop算法，通常有超过二者独自时的成果。具体过程如下(省略了$ l$)：

首先进行初始化：

$$v_{dW} = 0, s_{dW} = 0, v_{db} = 0, s_{db} = 0$$

用每一个Mini-Batch计算$ dW$、$ db$，第$ t$次迭代时：

$$v_{dW} = \beta_1 v_{dW} + (1 - \beta_1) dW$$

$$v_{db} = \beta_1 v_{db} + (1 - \beta_1) db$$

$$s_{dW} = \beta_2 s_{dW} + (1 - \beta_2) {(dW)}^2$$

$$s_{db} = \beta_2 s_{db} + (1 - \beta_2) {(db)}^2$$

个别应用Adam算法时须要计算偏差修改：

$$v^{corrected}_{dW} = \frac{v_{dW}}{1-{\beta_1}^t}$$

$$v^{corrected}_{db} = \frac{v_{db}}{1-{\beta_1}^t}$$

$$s^{corrected}_{dW} = \frac{s_{dW}}{1-{\beta_2}^t}$$

$$s^{corrected}_{db} = \frac{s_{db}}{1-{\beta_2}^t}$$

所以，更新$ W$、$ b$时有：

$$W := W - \alpha \frac{v^{corrected}_{dW}}{{\sqrt{s^{corrected}_{dW}} + \varepsilon}}$$

$$b := b - \alpha \frac{v^{corrected}_{db}}{{\sqrt{s^{corrected}_{db}} + \varepsilon}}$$

6.2 Adam超参数的抉择

Adam优化算法有很多的超参数，其中

学习率$ \alpha$：须要尝试一系列的值，来寻找比拟适合的
$ \beta_1$：罕用的缺省值为0.9
$ \beta_2$：Adam算法的作者倡议为0.999
$ \varepsilon$：不重要，不会影响算法体现，Adam算法的作者倡议为$ 10^{-8}$

$ \beta_1$、$ \beta_2$、$ \varepsilon$通常不须要调试。

比照原始梯度降落与RMSProp算法优化过程，如下图所示（上方为原始梯度降落，下方为Adam）

7.学习率衰减

减小学习率$ \alpha$也能无效进步神经网络训练速度，这种办法被称为学习率衰减法（learning rate decay）。

学习率衰减就是随着迭代次数减少，学习率$ \alpha$逐步减小。如下图示例。

① 蓝色折线示意设置一个固定的学习率$ \alpha$

在最小值点左近，因为不同的Batch中存在肯定的噪声，因而不会准确收敛，而是始终在最小值四周一个较大的范畴内稳定。

② 绿色折线示意随着工夫缓缓缩小学习率$ \alpha$的大小

在初期$ \alpha$较大时，降落的步长较大，能以较快的速度进行梯度降落；
前期逐渐减小$ \alpha$的值，即减小步长，有助于算法的收敛，更容易靠近最优解。

最罕用的学习率衰减办法：

$$\alpha = \frac{1}{1 + decay\_rate \ast epoch\_num} \ast \alpha_0$$

其中，decay_rate为衰减率(超参数)，epoch_num为将所有的训练样本残缺过一遍的次数。

指数衰减：$ \alpha = 0.95^{epoch\_num} \ast \alpha_0$
其余：$ \alpha = \frac{k}{\sqrt{epoch\_num}} \ast \alpha_0$
离散降落

对于较小的模型，也有人会在训练时依据进度手动调小学习率。

8.部分最优问题

在应用梯度降落算法一直减小cost function时，可能会失去部分最优解（local optima）而不是全局最优解（global optima）。

之前咱们对部分最优解的了解是形如碗状的凹槽，如图右边所示。然而在神经网络中，local optima的概念产生了变动。精确来说，大部分梯度为零的“最长处”并不是这些凹槽处，而是形如左边所示的马鞍状，称为saddle point。

所以在深度学习损失函数中，梯度为零并不能保障都是convex（极小值），也有可能是concave（极大值）。特地是在神经网络中参数很多的状况下，所有参数梯度为零的点很可能都是左边所示的马鞍状的saddle point，而不是右边那样的local optimum。

相似马鞍状的plateaus会升高神经网络学习速度。Plateaus是梯度接近于零的平缓区域，如图所示。在plateaus上梯度很小，后退迟缓，达到saddle point须要很长时间。达到saddle point后，因为随机扰动，梯度个别可能沿着图中绿色箭头，来到saddle point，继续前进，只是在plateaus上破费了太多工夫。

论断：

在训练较大的神经网络、存在大量参数，并且老本函数被定义在较高的维度空间时，困在极差的部分最优中是不大可能的；
鞍点左近的安稳段会使得学习十分迟缓，而这也是动量梯度降落法、RMSProp以及Adam优化算法可能减速学习的起因，它们能帮忙尽早走出安稳段。

参考资料

图解数据分析
numpy速查手册

ShowMeAI系列教程举荐

图解Python编程：从入门到精通系列教程
图解数据分析：从入门到精通系列教程
图解AI数学根底：从入门到精通系列教程
图解大数据技术：从入门到精通系列教程
图解机器学习算法：从入门到精通系列教程
机器学习实战：手把手教你玩转机器学习系列
深度学习教程 | 吴恩达专项课程 · 全套笔记解读

举荐文章

深度学习教程 | 深度学习概论
深度学习教程 | 神经网络根底
深度学习教程 | 浅层神经网络
深度学习教程 | 深层神经网络
深度学习教程 | 深度学习的实用层面
深度学习教程 | 神经网络优化算法
深度学习教程 | 网络优化：超参数调优、正则化、批归一化和程序框架
深度学习教程 | AI利用实际策略（上）
深度学习教程 | AI利用实际策略（下）
深度学习教程 | 卷积神经网络解读
深度学习教程 | 经典CNN网络实例详解
深度学习教程 | CNN利用：指标检测
深度学习教程 | CNN利用：人脸识别和神经格调转换
深度学习教程 | 序列模型与RNN网络
深度学习教程 | 自然语言解决与词嵌入
深度学习教程 | Seq2seq序列模型和注意力机制