关于时序数据库:解读顶会ICDE21论文利用DAEMON算法解决多维时序异常检测问题

6次阅读

共计 2528 个字符,预计需要花费 7 分钟才能阅读完成。

摘要:该论文针对多维时序数据的异样检测问题,提出了基于 GAN 和 AutoEncoder 的深度神经网络算法,并获得了以后 State of the Art (SOTA)的检测成果。论文是云数据库翻新 LAB 在轨迹剖析层面获得的关键技术成绩之一。

本文分享自华为云社区《ICDE’21 DAEMON 论文解读》,作者:云数据库翻新 Lab。

导读

本文 (DAEMON: Unsupervised Anomaly Detection and Interpretation for Multivariate Time Series) 是由华为云数据库翻新 Lab 联结电子科技大学数据与智能实验室发表在顶会 ICDE’21 的文章。该文章针对多维时序数据的异样检测问题,提出了基于 GAN 和 AutoEncoder 的深度神经网络算法,并获得了以后 State of the Art (SOTA)的检测成果。ICDE 是 CCF 举荐的 A 类国内学术会议,是数据库和数据挖掘畛域顶级学术会议之一。该论文是华为云数据库翻新 LAB 在轨迹剖析层面获得的关键技术成绩之一。

1. 摘要

随着 IoT 时代的到来,越来越多的传感器采集的时序数据被存储在数据库中,而怎么样解决这些海量数据以开掘其中的价值是近些年来学术界和工业界热门的钻研点。本文钻研了多指标时序数据的异样检测问题,以诊断产生时序数据的实体可能存在的异样。

本文的次要奉献如下:

  • 提出了 DAEMON 算法,其算法基于自编码器和 GAN 构造,自编码器用于重构输出时序数据,GAN 构造别离用于束缚自编码器的两头输入以及自编码器的重构输入以使自编码器构造的训练过程更加鲁棒并且缩小过拟合。
  • 本文提出了利用多维异样检测的重构后果进行根因定位的形式
  • DAEMON 算法可能在测试数据集上击败现有算法

2. 背景

3. 算法设计

图.1 DAEMON 的网络结构

A. 算法构造简介

DAEMON 算法的总体网络结构如图.1 所示,蕴含了三个网络模块,变分自编码器 G_AGA​(其中蕴含编码器 G_EGE​和解码器 G_DGD​,编码器和解码器同时作为两个 GAN 构造中的生成器), 对应编码器的 GAN 构造判断器 D_EDE​以及对应解码器的 GAN 构造判断器 D_DDD​。

上面简述一下各个网络结构的具体性能

B. 数据预处理

  • 数据荡涤:利用 spectral residual 算法首先清理掉训练数据集中可能存在的异样点,这样一来,VAE 将会更精确的学习到工夫序列的失常散布。
  • 数据归一化:本文利用 MINMAX 归一化形式对训练以及测试数据进行归一化。

C. 线下训练过程

DAEMON 的网络蕴含三个模块,一个变分自编码器,两个 GAN 构造的判断器。因为 GAN 构造网络须要异步训练,因而,DAEMON 构造对应了三个异步的训练过程,每个训练规程都对应了各自的优化器以及损失函数。

上面别离介绍各个模块:

GAN 构造 1:GAN 构造 1 中,生成器对应的是变分自编码器的编码器局部 G_EGE​,而判断器对应的是 D_EDE​,此 GAN 构造的目标是束缚生成器的散布 q(z)q(z)。由 GAN 的规范损失函数公式能够推导出生成器和判断器的损失函数别离为

GAN 构造 2:GAN 构造 2 中,生成器对应的是变分自编码器中的解码器局部 G_DGD​,判断器对应的是 D_DDD​,此 GAN 构造的目标是进一步束缚自编码器的输入以让自编码器更好的学习时序数据的失常散布。和下面类似,生成器和判断器的损失函数为

变分自编码器模块:变分自编码器用于数据的重构,其本身的损失函数用输出和输入的一范数间隔定义

留神。GAN 构造 1,2 中的判断器损失函数都只波及到判断器自身,在训练的时候,能够间接用 (1),(3) 进行训练,而生成器的损失函数和变分自编码器的损失函数同时波及到一个公共的模块,即变分自编码器自身,因而,在训练自编码器网络时,实际上要同时训练三个损失函数,具体的办法为,令三个损失函数的加权和为变分自编码器的损失函数,即

在线下训练时,顺次针对公式 (1),(3),(6) 进行训练。

D. 在线检测过程

在线数据 W_{x_t}Wxt​​输出到检测器后,失去重构 W ’_{x_t}Wxt​′​,之后把被检测点 x_txt​和被检测点的重构 x ’_txt′​做比拟以求取异样得分,即

E. 根因剖析

从公式 (7) 中能够看出,异样得分实际上是由每一个维度的误差所加和得出的,因而,在根因定位的时候,间接从 S_{x_t}^jSxt​j​中找出最大的 kk 个得分对应的指标既可视为根因可能呈现的地位。

4. 试验

4.1 环境设定

在仿真中,作者比照了四个罕用且公开的时序异样检测数据集,即 SMD, SMAP, MSL, SWaT 数据集。上面是各个数据集的具体指标。

作者在仿真中比照的指标为 precision, recall 以及 F1-score。

在比照算法方面,作者比照了 8 种现有的算法,其中 VAE 算法是 DAEMON 去掉 GAN 构造后的构造,目标是为了测试 GAN 束缚的有效性。为了体现本文 GAN 构造的有效性以及创新型,作者还比照了另外两种利用 GAN 构造的异样检测算法 GANomaly 以及 BeatGAN。其次,OmniAnomaly 是业界驰名 AIOps 团队,北大的裴丹传授团队发表在 KDD 上的异样检测算法。

下表是作者颁布的参数设置

4.2 检测后果

仿真比照后果如下表所示

能够看到,在四个公开数据集上,DAEMON 都能达到 SOTA 的成果。

4.3 工夫耗费

同时,从训练工夫和检测时间来看,DAEMON 算法也能在现有算法中达到中上的程度

图.2 训练检测时间比照

4.4 根因定位

最初,作者比照了根因定位的准确性,DAEMON 也能在比照算法中达到 SOTA 的性能

5. 利用

本算法曾经被集成在华为云时序存储与剖析组件 GaussDB for Influx 中,用于监控指标的异样检测与根因定位。

图.4 DAEMON 利用场景

6. 总结

在论文中,作者针对多维时序异样检测问题提出了基于变分自编码器以及 GAN 的 DAEMON 算法,通过测试,DAEMON 算法能够在公开数据集上达到 SOTA 的性能,并且也能达到 SOTA 的根因定位能力。其次,DAEMON 的训练,检测时间效率也能在现有算法中达到中上程度。

华为云数据库翻新 lab 官网:https://www.huaweicloud.com/l…

点击关注,第一工夫理解华为云陈腐技术~

正文完
 0