共计 1374 个字符,预计需要花费 4 分钟才能阅读完成。
原文链接:http://tecdat.cn/?p=25410
通过训练具备小核心层的多层神经网络重构高维输出向量,能够将高维数据转换为低维代码。这种神经网络被命名为自编码器_Autoencoder_。
自编码器是_非线性_降_维_ 技术用于特色的无监督学习,它们能够学习比主成分剖析成果更好的低维代码,作为升高数据维数的工具。
异样心跳检测
如果提供了足够的相似于某种底层模式的训练数据,咱们能够训练网络来学习数据中的模式。异样测试点是与典型数据模式不匹配的点。自编码器在重建这些数据时可能会有很高的错误率,这表明存在异样。
该框架用于应用深度自编码器开发异样检测演示。该数据集是心跳的 ECG 工夫序列,指标是确定哪些心跳是异样值。训练数据(20 个“好”心跳)和测试数据(为简略起见附加了 3 个“坏”心跳的训练数据),如下所示。每行代表一个心跳。
init()
PATH = os.path.expanduser("~/")
import_file(PATH + "train.csv")
import_file(PATH + "test.csv")
摸索数据集。
tra.shape
# 将框架转置,将工夫序列作为一个独自的列来绘制。plot(legend=False); # 不显示图例
在训练数据中,咱们有 20 个工夫序列,每个序列有 210 个数据点。请留神,所有线条都很紧凑并且形态类似。重要的是要记住,在应用自编码器进行训练时,您只想应用 VALID 数据。应删除所有异样。
当初让咱们训练咱们的神经网络
Estimator(
activation="Tanh",
hidden=\[50\],
)
model.train
``````
model
咱们的神经网络当初可能对 工夫序列进行 _编码_。
当初咱们尝试应用异样检测性能计算重建误差。这是输入层和输出层之间的均方误差。低误差意味着神经网络可能很好地对输出进行编码,这意味着是“已知”状况。高误差意味着神经网络以前没有见过该示例,因而是异常情况。
anomaly(test)
当初的问题是:哪个 test 工夫序列最有可能是异样?
咱们能够抉择错误率最高的前 N 个
df\['Rank'\] = df\['MSE'\].rank
sorted
dfsorted\[MSE'\] > 1.0
datT.plot
daT\[anindex\].plot(color='red');
带监督微调的无监督预训练
有时,未标记的数据比标记的数据多得多。在这种状况下,在未标记数据上训练自编码器模型,而后应用可用标签微调学习模型是有意义的。
论断
在本教程中,您学习了如何应用自编码器疾速检测时间序列异样。
最受欢迎的见解
1.r 语言用神经网络改良 nelson-siegel 模型拟合收益率曲线剖析
2.r 语言实现拟合神经网络预测和后果可视化
3.python 用遗传算法 - 神经网络 - 含糊逻辑控制算法对乐透剖析
4. 用于 nlp 的 python:应用 keras 的多标签文本 lstm 神经网络分类
5. 用 r 语言实现神经网络预测股票实例
6.R 语言基于 Keras 的小数据集深度学习图像分类
7. 用于 NLP 的 seq2seq 模型实例用 Keras 实现神经机器翻译
8.python 中基于网格搜索算法优化的深度学习模型剖析糖
9.matlab 应用贝叶斯优化的深度学习