关于神经网络:循环神经网络LSTM-RNN回归sin曲线预测

摘要：本篇文章将分享循环神经网络 LSTM RNN 如何实现回归预测。

本文分享自华为云社区《[[Python 人工智能] 十四. 循环神经网络 LSTM RNN 回归案例之 sin 曲线预测丨【百变 AI 秀】](https://bbs.huaweicloud.com/b…)》，作者：eastmount。

循环神经网络英文是 Recurrent Neural Networks，简称 RNN。假如有一组数据 data0、data1、data2、data3，应用同一个神经网络预测它们，失去对应的后果。如果数据之间是有关系的，比方做菜下料的前后步骤，英文单词的程序，如何让数据之间的关联也被神经网络学习呢？这就要用到——RNN。

假如存在 ABCD 数字，须要预测下一个数字 E，会依据后面 ABCD 程序进行预测，这就称为记忆。预测之前，须要回顾以前的记忆有哪些，再加上这一步新的记忆点，最终输入 output，循环神经网络（RNN）就利用了这样的原理。

首先，让咱们想想人类是怎么剖析事物之间的关联或程序的。人类通常记住之前产生的事件，从而帮忙咱们后续的行为判断，那么是否能让计算机也记住之前产生的事件呢？

在剖析 data0 时，咱们把剖析后果存入记忆 Memory 中，而后当剖析 data1 时，神经网络（NN）会产生新的记忆，但此时新的记忆和老的记忆没有关联，如上图所示。在 RNN 中，咱们会简略的把老记忆调用过去剖析新记忆，如果持续剖析更多的数据时，NN 就会把之前的记忆全副累积起来。

RNN 构造如下图所示，依照工夫点 t -1、t、t+1，每个时刻有不同的 x，每次计算会思考上一步的 state 和这一步的 x(t)，再输入 y 值。在该数学模式中，每次 RNN 运行完之后都会产生 s(t)，当 RNN 要剖析 x(t+1)时，此刻的 y(t+1)是由 s(t)和 s(t+1)独特发明的，s(t)可看作上一步的记忆。多个神经网络 NN 的累积就转换成了循环神经网络，其简化图如下图的右边所示。

总之，只有你的数据是有程序的，就能够应用 RNN，比方人类谈话的程序，电话号码的程序，图像像素排列的程序，ABC 字母的程序等。在后面解说 CNN 原理时，它能够看做是一个滤波器滑动扫描整幅图像，通过卷积加深神经网络对图像的了解。

而 RNN 也有同样的扫描成果，只不过是减少了工夫程序和记忆性能。RNN 通过暗藏层周期性的连贯，从而捕捉序列化数据中的动静信息，晋升预测后果。

RNN 罕用于自然语言解决、机器翻译、语音辨认、图像识别等畛域，上面简略分享 RNN 相干利用所对应的构造。

RNN 情感剖析： 当剖析一个人谈话情感是踊跃的还是消极的，就用如下图所示的 RNN 构造，它有 N 个输出，1 个输入，最初工夫点的 Y 值代表最终的输入后果。
RNN 图像识别： 此时有一张图片输出 X，N 张对应的输入。
RNN 机器翻译： 输出和输入别离两个，对应的是中文和英文，如下图所示。

接下来咱们看一个更弱小的构造，称为 LSTM。

RNN 是在有序的数据上进行学习的，RNN 会像人一样对先前的数据产生记忆，但有时候也会像老爷爷一样遗记先前所说。为了解决 RNN 的这个弊病，提出了 LTSM 技术，它的英文全称是 Long short-term memory，长短期记忆，也是当下最风行的 RNN 之一。

假如当初有一句话，如下图所示，RNN 判断这句话是红烧排骨，这时须要学习，而“红烧排骨“在句子结尾。

“ 红烧排骨 ” 这个词须要通过长途跋涉能力到达，要通过一系列失去误差，而后通过反向传递，它在每一步都会乘以一个权重 w 参数。如果乘以的权重是小于 1 的数，比方 0.9，0.9 会一直地乘以误差，最终这个值传递到初始值时，误差就隐没了，这称为梯度隐没或梯度离散。

反之，如果误差是一个很大的数，比方 1.1，则这个 RNN 失去的值会很大，这称为梯度爆炸。

梯度隐没或梯度爆炸：在 RNN 中，如果你的 State 是一个很长的序列，假如反向传递的误差值是一个小于 1 的数，每次反向传递都会乘以这个数，0.9 的 n 次方趋向于 0，1.1 的 n 次方趋向于无穷大，这就会造成梯度隐没或梯度爆炸。

这也是 RNN 没有复原记忆的起因，为了解决 RNN 梯度下降时遇到的梯度隐没或梯度爆炸问题，引入了 LSTM。

LSTM 是在一般的 RNN 下面做了一些改良，LSTM RNN 多了三个控制器，即输出、输入、遗记控制器。右边多了个条主线，例如电影的主线剧情，而本来的 RNN 体系变成了分线剧情，并且三个控制器都在分线上。

输出控制器（write gate）: 在输出 input 时设置一个 gate，gate 的作用是判断要不要写入这个 input 到咱们的内存 Memory 中，它相当于一个参数，也是能够被训练的，这个参数就是用来管制要不要记住当下这个点。
输入控制器（read gate）: 在输入地位的 gate，判断要不要读取当初的 Memory。
遗记控制器（forget gate）: 解决地位的遗记控制器，判断要不要遗记之前的 Memory。

LSTM 工作原理为：如果分线剧情对于最终后果非常重要，输出控制器会将这个分线剧情按重要水平写入主线剧情，再进行剖析；如果分线剧情扭转了咱们之前的想法，那么遗记控制器会将某些主线剧情遗记，而后按比例替换新剧情，所以主线剧情的更新就取决于输出和遗记管制；最初的输入会基于主线剧情和分线剧情。

通过这三个 gate 可能很好地管制咱们的 RNN，基于这些管制机制，LSTM 是延缓记忆的良药，从而带来更好的后果。

后面咱们解说了 RNN、CNN 的分类问题，这篇文章将分享一个回归问题。在 LSTM RNN 回归案例中，咱们想要用蓝色的虚线预测红色的实线，因为 sin 曲线是波浪循环，所以 RNN 会用一段序列来预测另一段序列。

代码根本构造包含：

(1) 生成数据的函数 get_batch()
(2) 主体 LSTM RNN
(3) 三层神经网络，包含 input_layer、cell、output_layer，和之前分类 RNN 的构造一样。

(4) 计算误差函数 computer_cost
(5) 误差 weight 和偏置 biases
(6) 主函数建设 LSTM RNN 模型
(7) TensorBoard 可视化神经网络模型，matplotlib 可视化拟合曲线、
最初再补充下 BPTT，就开始咱们的代码编写。

假如咱们训练含有 1000000 个数据的序列，如果全副训练的话，整个的序列都 feed 进 RNN 中，容易造成梯度隐没或爆炸的问题。所以解决的办法就是截断反向流传 (Truncated Backpropagation，BPTT)，咱们将序列截断来进行训练(num_steps)。

个别截断的反向流传是：在以后工夫 t，往前反向流传 num_steps 步即可。如下图，长度为 6 的序列，截断步数是 3，Initial State 和 Final State 在 RNN Cell 中传递。

然而 Tensorflow 中的实现并不是这样，它是将长度为 6 的序列分为了两局部，每一部分长度为 3，前一部分计算失去的 final state 用于下一部分计算的 initial state。如下图所示，每个 batch 进行独自的截断反向流传。此时的 batch 会保留 Final State，并作为下一个 batch 的初始化 State。

参考：深度学习（07）RNN- 循环神经网络 -02-Tensorflow 中的实现 – 莫失莫忘 Lawlite

此时的输入后果如下图所示，留神它只是模仿的预期曲线，还不是咱们神经网络学习的构造。

初始化 init()函数的参数包含：

• n_steps 示意 batch 中的步骤，共有 3 步。
• input_size 示意传入 batch data 时，每个 input 的长度，该实例中 input_size 和 output_size 均为 1。如下图所示，假如咱们 batch 长度为一个周期（0-6），每个 input 是线的 x 值，input size 示意每个工夫点有多少个值，只有一个点故为 1。
• output_size 示意输入的值，输入对应 input 线的 y 值，其大小值为 1。
• cell_size 示意 RNN Cell 的个数，其值为 10。
• batch_size 示意一次性传给神经网络的 batch 数量，设置为 50。

该局部代码如下，留神 xs 和 ys 的形态。同时，咱们须要应用 Tensorboard 可视化 RNN 的构造，所以调用 tf.name_scope()设置各神经层和变量的命名空间名称，详见第五篇文章。

这三个函数也是减少在 LSTMRNN 的 Class 中，外围代码及具体正文如下所示：

留神，下面调用了 reshape()进行形态更新，为什么要将三维变量改成二维呢？因为只有变成二维变量之后，能力计算 W *X+B。

这里须要留神：咱们应用了 seq2seq 函数。它求出的 loss 是整个 batch 每一步的 loss，而后把每一步 loss 进行 sum 求和，变成了整个 TensorFlow 的 loss，再除以 batch size 均匀，最终失去这个 batch 的总 cost，它是一个 scalar 数字。

前面的文章咱们会具体写一篇机器翻译相干的内容，并应用 seq2seq 模型。

Seq2Seq 模型是输入的长度不确定时采纳的模型，这种状况个别是在机器翻译的工作中呈现，将一句中文翻译成英文，那么这句英文的长度有可能会比中文短，也有可能会比中文长，所以输入的长度就不确定了。如下图所，输出的中文长度为 4，输入的英文长度为 2。

在网络结构中，输出一个中文序列，而后输入它对应的中文翻译，输入的局部的后果预测前面，依据下面的例子，也就是先输入“machine”，将 ”machine” 作为下一次的输出，接着输入 ”learning”，这样就能输入任意长的序列。

机器翻译、人机对话、聊天机器人等等，这些都是利用在当今社会都或多或少的使用到了咱们这里所说的 Seq2Seq。

写到这里，整个 Class 就定义实现。

该阶段的残缺代码如下，咱们先尝试运行下代码：

此时会在 Python 文件目录下新建一个“logs”文件夹和 events 的文件，如下图所示。

接下来尝试关上它。首先调出 Anaconda Prompt，并激活 TensorFlow，接着去到 events 文件的目录，调用命令“tensorboard –logdir=logs 运行即可，如下图所示。留神，这里只须要指引到文件夹，它就会主动索引到你的文件。

此时拜访网址“http://localhost:6006/”，抉择“Graphs”，运行之后如下图所示，咱们的神经网络就呈现了。

神经网络构造如下图所示，包含输出层、LSTM 层、输入层、cost 误差计算、train 训练等。

具体构造如下图所示：

通常咱们会将 train 局部搁置一边，选中“train”而后鼠标右键点击“Remove from main graph”。外围构造如下，in_hidden 是承受输出的第一层，之后是 LSTM_cell，最初是输入层 out_hidden。

in_hidden： 包含了权重 Weights 和 biases，计算公式 Wx_plus_b。同时，它包含了 reshape 操作，2_2D 和 2_3D。
out_hidden： 包含了权重 weights、偏置 biases、计算公式 Wx_plus_b、二维数据 2_2D，并且输入后果为 cost。
cost： 计算误差。
两头是 LSTM_cell： 包含 RNN 循环神经网络，初始化 initial_state，之后会被 state 更新替换。

留神版本问题，读者能够联合本人的 TensorFlow 版本进行适当批改运行。作者版本版本信息为：Python3.6、Anaconda3、Win10、Tensorflow1.15.0。

如果您报错 AttributeError: module‘tensorflow._api.v1.nn’has no attribute‘seq2seq’，这是 TensorFlow 版本升级，办法调用更改。解决形式：

如果您报错 TypeError: msr_error() got an unexpected keyword argument‘labels’，msr_error() 函数失去一个意外的要害参数‘lables’。其解决形式：定义 msr_error() 函数时，应用 labels，logits 指定，将

改为：

如果您报错 ValueError: Variable in_hidden/weights already exists, disallowed. Did you mean to set reuse=True or reuse=tf.AUTO_REUSE in VarScope?，则重新启动 kernel 即可运行。

最初，咱们在主函数中编写 RNN 训练学习和预测的代码。

首先咱们来测试 cost 学习的后果。代码如下，if 判断中 cell_init_state 为后面已初始化的 state，之后更新 state（model.cell_init_state: state），其实就是将 Final State 换成下一个 batch 的 Initial State，从而合乎咱们定义的构造。

每隔 20 步输入后果，如下所示，误差从最后的 33 到最初的 0.335，神经网络在一直学习，误差在一直减小。

接下来减少 matplotlib 可视化的 sin 曲线动静拟合过程，最终残缺代码如下所示：

写道这里，这篇文章终于写完了。文章十分长，但心愿对您有所帮忙。LSTM RNN 通过一组数据预测另一组数据。预测成果如下图所示，红色的实线示意须要预测的线，蓝色的虚线示意 RNN 学习的线，它们在一直地迫近，蓝线学到了红线的法则，最终将蓝线根本拟合到红线上。

本文介绍完了，更多 TensorFlow 深度学习文章会持续分享，接下来咱们会分享监督学习、GAN、机器翻译、文本辨认、图像识别、语音辨认等内容。如果读者有什么想学习的，也能够私聊我，我去学习并利用到你的畛域。

最初，心愿这篇基础性文章对您有所帮忙，如果文章中存在谬误或不足之处，还请海涵~ 作为人工智能的菜鸟，我心愿本人能不断进步并深刻，后续将它利用于图像识别、网络安全、反抗样本等畛域，领导大家撰写简略的学术论文，一起加油！

代码下载地址（欢送大家关注点赞）：

https://github.com/eastmounty…
https://github.com/eastmounty…

点击关注，第一工夫理解华为云陈腐技术~

关于神经网络:循环神经网络LSTM-RNN回归sin曲线预测

一.RNN 和 LSTM 回顾

1.RNN

(1) RNN 原理

(2) RNN 利用

2.LSTM

(1) 为什么要引入 LSTM 呢？

(2) LSTM

二.LSTM RNN 回归案例阐明

(1) 一般 RNN

(2) TensorFlow 版本的 BPTT

三. 代码实现

第一步，关上 Anaconda，而后抉择曾经搭建好的“tensorflow”环境，运行 Spyder。

第二步，导入扩大包。

第三步，编写生成数据的函数 get_batch()，它生成了 sin 曲线的序列。

第四步，编写 LSTMRNN 类，它用于定义咱们的循环神经网络构造，初始化操作和所需变量。

第五步，接着开始编写三个函数（三层神经网络），它是 RNN 的外围构造。

第六步，定义计算误差函数。

第七步，定义 msr_error 计算函数、误差计算函数和偏置计算函数。

第八步，接下来定义主函数，进行训练和预测操作，这里先尝试 TensorBoard 可视化展示。

四. 残缺代码及可视化展现

五. 预测及曲线拟合

六. 总结