关于nlp:架构级理解BERT逃不掉的RNN

前言

写这一个系列的动因就是本人想深刻理解一下BERT的原理。BERT是怎么被构想进去的？比拟适宜刚入门的小白浏览，读完之后会发现其实不过如此。那么既然是架构级的，本系列不会过多的波及代码级的或者说公式级的，更多的是设计形式以及设计的起因。本系列将分成以下几个模块，

逃不掉的RNN
探究机翻的底细：Seq2Seq
Attention is ALL you need
Transformer是谁？
This is BERT

时序数据

回忆咱们晓得的全连贯层，他实际上做的就是将一堆input转换为一堆output，这些input之间没有工夫上的关系，而是将所有input揉在一起输出到模型中。而对于时序数据，比方一段话，人在浏览的时候是单向的、随着工夫将input一一输出，并且很多时候input的长度是未知的。所以咱们就须要一个新的架构来解决这一类的时序数据。

Simple RNN

为什么须要RNN？假如咱们须要解决一个文本分类工作。

要想对文本进行分类，那么咱们必须将这个文本数字化或者说向量化，并且须要保障这个向量可能表征这句话，蕴含了这句话中所有的特色。而通过RNN就可能将一个句子中的所有信息都交融起来，表征成一个向量。

下面就是RNN的架构图，咱们一步一步来讲。首先是咱们的输出，显然是一串文本：the cat sat ... mat。那么对于某个单词而言，比方the，想要参加后续的运算，首先须要将其向量化，这里能够用到word2vec等算法，通过语义的形式将单词转化为一个向量x0。而后将x0输出矩阵A，外部过程如下，

将x0与ht-1（此处因为x0是第一个，ht-1实践上来说不存在，那么能够通过一些解决比方将其置零之类代替）连接起来，和矩阵A相乘，再进行tanh激活函数计算，失去h0。而后将h0和x1输出到矩阵A又反复上述计算，周而复始（所以RNN叫循环神经网络，上一步的输入又作为下一步的输出）。显然，h0中存储着x0的状态，h1中存储着x0和x1的状态，以此类推，最初一个输入ht中应该存储着后面所有x_i（单词）的信息。这样，ht相当于征集了所有村民的意见，就能够作为代表拿去评估，实现二分类的工作。

此处思考一个问题：为什么须要tanh激活？
假如没有tanh，为不便探讨，咱们假如所有的x都是零向量，那么ht ≈ A×ht-1。易得h¹⁰⁰ = A¹⁰⁰h0。易得Ax = x，A¹⁰⁰x = ¹⁰⁰x，若A的特征值稍大于1，那么A¹⁰⁰就间接爆炸了；若稍小于1，那么A¹⁰⁰预计就间接变成零矩阵了。所以须要tanh进行一个相似于正则化的工作。

毛病使人提高，RNN存在什么毛病呢？=>RNN的记忆力特地短，什么是记忆力？之前咱们说“最初一个输入ht中应该存储着后面所有x_i（单词）的信息”，的确，然而当序列长度变大，对于最后面的x所遗留下来的特色可能曾经被笼罩掉了。能够通过计算h~100~对于x0的导数来判断之间的相关性，计算可得，导数靠近于0。

所以咱们能够发现，simpleRNN在解决短距离的文本时成果较好，当序列长度变大之后，成果就不太好了。所以引出LSTM。

革新SimpleRNN => LSTM

可见LSTM其实也是一类RNN罢了，此处我不会具体解释其原理，因为Attention is ALL you need，RNN能够被attention取代了。

首先来看LSTM的架构，

仔细观察发现，其实和简略RNN没有很大区别，其实就是把之前单纯的乘矩阵A转化为一系列更为简单的操作。所以SimpleRNN能够被LSTM齐全替换掉，就像替换某个整机一样。外部的大抵过程如下。

为了补救SimpleRNN 记忆力失落的问题，LSTM将记忆放在一个传输带上，也就是下图中的Conveyor Belt，也就是左下方的C~t-1~，记忆的更新形式如图右下方所示，其中能够发现f向量，这是LSTM中的忘记门，他能够管制哪些信息疏忽，哪些信息保留。忘记门也保障了长距离记忆始终存在。

最初是LSTM的输入，在记忆信息C的根底上进行肯定的加工之后失去ht。同样和SimpleRNN相似，将上一步的输入作为输出传入下一层。