摘要:该论文针对多维时序数据的异样检测问题,提出了基于GAN和AutoEncoder的深度神经网络算法,并获得了以后State of the Art (SOTA)的检测成果。论文是云数据库翻新LAB在轨迹剖析层面获得的关键技术成绩之一。
本文分享自华为云社区《ICDE'21 DAEMON论文解读》,作者:云数据库翻新Lab。
导读
本文( DAEMON: Unsupervised Anomaly Detection and Interpretation for Multivariate Time Series)是由华为云数据库翻新Lab联结电子科技大学数据与智能实验室发表在顶会ICDE’21的文章。该文章针对多维时序数据的异样检测问题,提出了基于GAN和AutoEncoder的深度神经网络算法,并获得了以后State of the Art (SOTA)的检测成果。ICDE是CCF举荐的A类国内学术会议,是数据库和数据挖掘畛域顶级学术会议之一。该论文是华为云数据库翻新LAB在轨迹剖析层面获得的关键技术成绩之一。
1. 摘要
随着IoT时代的到来,越来越多的传感器采集的时序数据被存储在数据库中,而怎么样解决这些海量数据以开掘其中的价值是近些年来学术界和工业界热门的钻研点。本文钻研了多指标时序数据的异样检测问题,以诊断产生时序数据的实体可能存在的异样。
本文的次要奉献如下:
- 提出了DAEMON算法,其算法基于自编码器和GAN构造,自编码器用于重构输出时序数据,GAN构造别离用于束缚自编码器的两头输入以及自编码器的重构输入以使自编码器构造的训练过程更加鲁棒并且缩小过拟合。
- 本文提出了利用多维异样检测的重构后果进行根因定位的形式
- DAEMON算法可能在测试数据集上击败现有算法
2. 背景
3. 算法设计
图.1 DAEMON的网络结构
A. 算法构造简介
DAEMON算法的总体网络结构如图.1所示,蕴含了三个网络模块,变分自编码器G_AGA(其中蕴含编码器G_EGE和解码器G_DGD,编码器和解码器同时作为两个GAN构造中的生成器), 对应编码器的GAN构造判断器D_EDE以及对应解码器的GAN构造判断器D_DDD。
上面简述一下各个网络结构的具体性能
B. 数据预处理
- 数据荡涤:利用spectral residual算法首先清理掉训练数据集中可能存在的异样点,这样一来,VAE将会更精确的学习到工夫序列的失常散布。
- 数据归一化:本文利用MINMAX归一化形式对训练以及测试数据进行归一化。
C. 线下训练过程
DAEMON的网络蕴含三个模块,一个变分自编码器,两个GAN构造的判断器。因为GAN构造网络须要异步训练,因而,DAEMON构造对应了三个异步的训练过程,每个训练规程都对应了各自的优化器以及损失函数。
上面别离介绍各个模块:
GAN构造1:GAN构造1中,生成器对应的是变分自编码器的编码器局部G_EGE,而判断器对应的是D_EDE,此GAN构造的目标是束缚生成器的散布q(z)q(z) 。由GAN的规范损失函数公式能够推导出生成器和判断器的损失函数别离为
GAN构造2:GAN构造2中,生成器对应的是变分自编码器中的解码器局部G_DGD,判断器对应的是D_DDD,此GAN构造的目标是进一步束缚自编码器的输入以让自编码器更好的学习时序数据的失常散布。和下面类似,生成器和判断器的损失函数为
变分自编码器模块:变分自编码器用于数据的重构,其本身的损失函数用输出和输入的一范数间隔定义
留神。GAN构造1,2中的判断器损失函数都只波及到判断器自身,在训练的时候,能够间接用(1),(3)进行训练,而生成器的损失函数和变分自编码器的损失函数同时波及到一个公共的模块,即变分自编码器自身,因而,在训练自编码器网络时,实际上要同时训练三个损失函数,具体的办法为,令三个损失函数的加权和为变分自编码器的损失函数,即
在线下训练时,顺次针对公式(1),(3),(6)进行训练。
D. 在线检测过程
在线数据W_{x_t}Wxt输出到检测器后,失去重构W'_{x_t}Wxt′,之后把被检测点x_txt和被检测点的重构x'_txt′做比拟以求取异样得分,即
E. 根因剖析
从公式(7)中能够看出,异样得分实际上是由每一个维度的误差所加和得出的,因而,在根因定位的时候,间接从S_{x_t}^jSxtj中找出最大的kk个得分对应的指标既可视为根因可能呈现的地位。
4. 试验
4.1 环境设定
在仿真中,作者比照了四个罕用且公开的时序异样检测数据集,即SMD, SMAP, MSL, SWaT数据集。上面是各个数据集的具体指标。
作者在仿真中比照的指标为precision, recall以及F1-score。
在比照算法方面,作者比照了8种现有的算法,其中VAE算法是DAEMON去掉GAN构造后的构造,目标是为了测试GAN束缚的有效性。为了体现本文GAN构造的有效性以及创新型,作者还比照了另外两种利用GAN构造的异样检测算法GANomaly以及BeatGAN。其次,OmniAnomaly是业界驰名AIOps团队,北大的裴丹传授团队发表在KDD上的异样检测算法。
下表是作者颁布的参数设置
4.2 检测后果
仿真比照后果如下表所示
能够看到,在四个公开数据集上,DAEMON都能达到SOTA的成果。
4.3 工夫耗费
同时,从训练工夫和检测时间来看,DAEMON算法也能在现有算法中达到中上的程度
图.2 训练检测时间比照
4.4 根因定位
最初,作者比照了根因定位的准确性,DAEMON也能在比照算法中达到SOTA的性能
5. 利用
本算法曾经被集成在华为云时序存储与剖析组件GaussDB for Influx中,用于监控指标的异样检测与根因定位。
图.4 DAEMON利用场景
6. 总结
在论文中,作者针对多维时序异样检测问题提出了基于变分自编码器以及GAN的DAEMON算法,通过测试,DAEMON算法能够在公开数据集上达到SOTA的性能,并且也能达到SOTA的根因定位能力。其次,DAEMON的训练,检测时间效率也能在现有算法中达到中上程度。
华为云数据库翻新lab官网:https://www.huaweicloud.com/l...
点击关注,第一工夫理解华为云陈腐技术~