关于神经网络:长短期记忆网络LSTM

10次阅读

共计 1916 个字符，预计需要花费 5 分钟才能阅读完成。

一．摘要

门管制循环单元是为了解决循环神经网络短期记忆问题提出的解决方案，它们引入称作“门”的外部机制，能够调节信息流。在上次的内容分享中，咱们简略解析了名称为 GRU 的门管制循环单元。因为“门”的机制，咱们还能够在此基础上翻新出性能更优的循环单元。本次分享的内容也是基于 GRU 循环单元的强化版：长短期记忆网络 (long short-term memory，LSTM) 门管制循环单元。

image.png

图 1：LSTM 和 GRU 结构图

二．长短期记忆(LSTM)

通过图 1 能够很显著的发现 LSTM 比 GRU“门”的数量更多构造也更简单。LSTM 中引入了 3 种类型的门，即输出门（input gate）、忘记门（forget gate）和输入门（output gate），以及与暗藏状态形态雷同的记忆细胞。

输出门、忘记门和输入门：此 3 种管制门与门控循环单元中的重置门和更新门性能类似。如图 2 所示，长短期记忆的门的输出均为以后工夫步输出 Xt 与上一时间步暗藏状态 Ht-1，输入由激活函数为 sigmoid 函数的全连贯层计算失去。如此一来，因为 sigmoid 函数的个性，此 3 个门元素的输入值域均为[0, 1]。

image.png

图 2：LSTM 中的输出门、忘记门和输入门

具体来说，假如暗藏单元个数为 h，给定工夫步 t 的小批量输出 Xt ∈ Rn×d（样本数为 n，输出个数为 d）和上一时间步暗藏状态 Ht−1 ∈ Rn×h。工夫步 t 的输出门 It ∈ Rn×h、忘记门 Ft ∈ Rn×h 和输入门 Ot ∈ Rn×h 别离计算如下：

It = σ(XtWxi + Ht−1Whi + bi),

Ft = σ(XtWxf + Ht−1Whf + bf),

Ot = σ(XtWxo + Ht−1Who + bo),

其中的 Wxi,Wxf ,Wxo ∈ Rd×h 和 Whi,Whf ,Who ∈ Rh×h 都属于权重参数，其余是 bi, bf , bo ∈ R1×h 是偏差参数。

候选记忆细胞：接下来便是记忆细胞的机制，长短期记忆须要计算候选记忆细胞 C˜t。它的计算与下面介绍的 3 种门相似，但这里应用了值域在 [-1, 1] 的 tanh 函数作为激活函数，如图 3 所示。

image.png

图 3：LSTM 中的候选记忆细胞计算

那么工夫步 t 的候选记忆细胞 C˜t ∈ Rn×h 的计算能够示意为：

C˜t = tanh(XtWxc + Ht−1Whc + bc),

上述表达式中的 Wxc ∈ Rd×h 和 Whc ∈ Rh×h 是权重参数，bc ∈ R1×h 是偏差参数。

记忆细胞：咱们能够通过元素值域在 [0, 1] 的输出门、忘记门和输入门来管制暗藏状态中信息的流动，这个别也是通过应用按元素乘法（符号为⊙）来实现的。以后工夫步记忆细胞 Ct ∈ Rn×h 的计算组合了上一时间步记忆细胞和以后工夫步候选记忆细胞的信息，并通过忘记门和输出门来管制信息的流动：

Ct = Ft ⊙ Ct−1 + It ⊙ C˜t.

如图 4 所示，忘记门管制上一时间步的记忆细胞 Ct- 1 中的信息是否传递到以后工夫步，而输出门则管制以后工夫步的输⼊ Xt 通过候选记忆细胞 C˜t 如何流入以后工夫步的记忆细胞。如果忘记门始终近似 1 且输出门始终近似 0，过来的记忆细胞将始终通过工夫保留并传递至以后工夫步。这个设计次要是针对循环神经网络中的梯度衰减问题，并且还能够更好地捕获工夫序列中工夫步间隔较大的依赖关系。

image.png

图 4：LSTM 忆中记忆细胞的计算。这⾥的⊙是按元素乘法

暗藏状态：有了记忆细胞当前，接下来咱们还能够通过输入门来管制从记忆细胞到暗藏状态 Ht ∈ Rn×h 的信息的流动：

Ht = Ot ⊙ tanh(Ct).

这里的 tanh 函数确保暗藏状态元素值在 - 1 到 1 之间。须要留神的是，当输入门近似 1 时，记忆细胞信息将传递到暗藏状态供输入层应用；当输入门近似 0 时，记忆细胞信息只本人保留。图 5 展现了长短期记忆中暗藏状态的计算。

image.png

图 5：LSTM 忆中暗藏状态的计算。这⾥的⊙是按元素乘法

LSTM 的输出门、忘记门和输入门能够管制信息的流动。暗藏层输入包含暗藏状态和记忆细胞，只有暗藏状态会传递到输入层。长短期记忆能够应答循环神经网络中的梯度衰减问题，并更好地捕获工夫序列中工夫步间隔较大的依赖关系。

三．总结

LSTM 的外围是细胞的状态，以及其中的各种门构造。细胞状态充当传输通道，在序列链中进行着相干信息的传递。也能够形象为网络的“记忆”。实践上，细胞状态能够在序列的整个处理过程中携带相干信息。当细胞状态持续进行时，信息通过门被增加或移除到细胞状态。门是不同的神经网络，决定在细胞状态上容许哪些信息。有些门能够理解在训练期间放弃或遗记哪些信息。

LSTM 与 GRU 相比拟有了更多的“门”管制单元，计算也就更加简单且耗时。但也对长短期记忆性能有了更好的晋升，同时在训练过程中 LSTM 也更容易产生过拟合景象。

正文完