关于深度学习:异常检测算法分类总结含常用开源数据集

作者：云智慧算法工程师 Chris Hu

异样检测是辨认与失常数据不同的数据，与预期行为差别大的数据。本文具体介绍了异样检测的应用领域以及总结梳理了异样检测的算法模型分类。文章最初更是介绍了罕用的异样算法数据集。

目前异样检测次要是基于 Hawkins 对异样的定义：(Hawkins defines an outlier as an observation that deviates so significantly from other observations as to arouse suspicion that it was generated by a different mechanism.)。异样（anomaly/outlier）指的是远离其余观测数据而疑为不同机制产生的观测数据。依据概率实践对异样的形式化定义如下：

异样次要分为以下三种类型：

point anomalies（点异样）

点异样是单个异样数据点，将数据集中每个数据映射到高维空间中，其中孤立的点被称为点异样。这种异样点与其余数据点具备显著差别，这种异样分类是异样数据中最为简略的一种，也是异样检测钻研中最常钻研的异样类型。
conditional anomalies/contextual anomalies（条件异样 / 上下文异样）

一个数据自身来看属于失常点，但在特定的条件下又与个别状况有差别，这类数据称为条件异样或上下文异样。其中上下文指数据集间的构造和关系，每个数据均由上下文特色(contextual attributes) 及行为特色(behavioral attributes) 来定义，即条件异样须要思考的不仅仅是数据的取值，还需思考数据呈现的环境，也就是说某一数据在特定数据环境下被判断为异样，而在其余数据集中则可能是失常的。
collective anomalies/group anomalies（群体异样 / 序列异样）

数据属性在失常范畴内，且从上下文环境角度判断也属于失常的数据仍有可能是异样数据。如图 3 所示，在脑电图中虚线圆圈局部与脑电图整体图形不统一模式称之为汇集异样(或称汇合异样)。异样数据集中单个点可能并不异样，但这些互相关联的数据点汇集在一起时变为异样的状况。汇集异样不仅须要思考数据的取值、上下文环境，还思考数据集是否合乎整体模式。汇集异样检测罕用于工夫序列、空间数据以及图模式的数据中。

在理论的运维场景中，以上三种异样都会呈现，比方资源使用率忽然回升造成 Point Anomalies，又如 CPU 应用过程中的忽然卡顿造成 Contextual anomaly，再如某指标使用率间断一段时间处于“满格”状态而呈现出 Collective or group anomalies。后两者异样通常须要和业务紧密结合，单纯从数据自身登程具备肯定的辨识难度，再加上运维畛域中大比例状况下呈现的是 Point Anomalies，客户多关注于此，因此通常状况下咱们更关注 Point Anomalies。

入侵检测（Intrusion detection）：通过从计算机网络或计算机系统中的若干关键点收集信息并对其进行剖析，从中察觉网络或零碎中有没有违反安全策略的行为和受到袭击的迹象，并对此做出适当反馈的流程。最广泛的两种入侵检测零碎包含基于主机的入侵检测零碎（HIDS）、网络入侵检测零碎（NIDS）。
欺诈检测（Fraud detection）：次要是不同畛域的非法活动检测，次要应用领域包含银行欺诈、挪动蜂窝网络故障、保险欺诈、医疗欺诈。
恶意软件检测（Malware Detection）：次要分为动态剖析检测技术与动态分析与检测技术。
医疗异样检测（Medical Anomaly Detection）：通过 X 光片、核磁共振、CT 等医学图像检测疾病或量化异样，也能够通过 EEG、ECG 等时序信号进行疾病检测或异样预警。
深度学习用于社交网络中的异样检测（Deep learning for Anomaly detection in Social Networks）：社交网络中的异样通常是指集体的不失常甚至守法的行为，如垃圾邮件发送者、性侵者、在线欺诈者、虚伪用户或流言散布者等。
日志异样检测（Log Anomaly Detection）：日志异样检测是指找到异样日志，从而判断系统故障起因与性质，通常将日志数据建模为自然语言序列进行异样检测。
物联网大数据异样检测（Internet of things (IoT) Big Data Anomaly Detection）：通过监控数据流信息检测异样设施和零碎行为。
工业异样检测（Industrial Anomalies Detection）: 检测风力涡轮机、发电厂、低温能源零碎、存储设备和旋转机械部件组成的工业零碎中设施的损坏状况，该畛域中异样检测的挑战是数据量与数据的动静个性，因为故障通常是由多种因素引起的。
工夫序列中的异样检测（Anomaly Detection in TimeSeries）：包含单变量工夫序列异样检测与多变量工夫序列异样检测。
视频监控（Video Surveillance）：检测视频中的异样场景。

现如今，异样检测次要面临以下艰难与挑战：

未知性：异样与许多未知因素无关，例如，具备未知的突发行为、数据结构和散布的实例。它们直到真正产生时才为人所知，比方恐怖袭击、欺骗和网络入侵等利用；
异样类的异构性：异样是不规则的，一类异样可能体现出与另一类异样齐全不同的异样特色。例如，在视频监控中，抢劫、交通事故和偷盗等异样事件在视觉上有很大差别；
类别不平衡：异样通常是常见的数据实例，而失常实例通常占数据的绝大部分。因而，收集大量标了标签的异样实例是艰难的，甚至是不可能的。这导致在大多数应用程序中无奈取得大规模的标记数据。

有监督异样检测算法

有监督异样检测算法是指在训练集中的失常实例和异样实例都有标签，训练二类或多类分类器。有监督异样检测办法次要面临两个问题，一方面是在训练数据中，绝对于失常工夫序列来讲，异样的数据量太小，会对检测成果产生影响；另一方面是在实际操作中很难准确地标注数据是失常或异样，而且异样的状况也难以全副笼罩。基于以上起因，在理论异样检测中，有监督异样检测算法在理论利用中较少。

半监督异样检测算法

半监督异样检测算法是指在训练集中只有繁多类别（失常实例）的实例，没有异样实例参加训练。半监督异样检测技术的一种典型办法是基于训练数据集为失常工夫序列数据建设模型，而后利用该模型辨认待检测数据中的异样。半监督异样检测学习失常数据的判断边界，不属于失常类的数据被判断为异样。因为训练中不需标注异样序列，因而半监督式异样检测办法的利用绝对更加宽泛。

无监督异样检测算法

无监督异样检测算法在训练集中既有失常实例也可能存在异样实例，但假如数据的比例是失常实例远大于异样实例，模型训练过程中没有标签进行校对。此类技术的核心思想在于异样的状况绝对于失常的状况而言是很少的，且其与失常状况存在较大的差别，这种差别能够体现在数据之间的间隔远近、散布密度、偏离水平等方面。无监督异样检测算法仅依据数据的外在属性（如间隔、密度等）检测数据的异样值，自编码器是所有无监督深度异样检测模型的外围。

基于模型的异样算法分类基于传统办法的异样检测模型和基于深度学习的异样检测模型两大类。

基于统计的办法

应用这类办法基于的根本假如是失常的数据是遵循特定散布模式的，并且占了很大比例，而异样点的地位和失常点相比存在比拟大的偏移。比方高斯分布，在平均值加减 3 倍标准差以外的局部仅占了 0.2% 左右的比例，个别咱们把这部分数据就标记为异样数据。

基于统计的异样检测个别须要充沛的数据根底和相应的先验常识，此时检测成果可能是十分无效的。然而，此类检测办法个别是针对单个属性或低维数据的，而对于高纬度的工夫序列数据就难以估计其实在的散布。

基于重构的办法

假如异样点是不可被压缩的或不能从低维映射空间无效地被重构的。常见的办法有 PCA、Robust PCA、random projection 等降维办法。PCA 提取了数据的次要特色，如果一个数据样本不容易被重构进去，示意这个数据样本的特色跟整体数据样本的特色不统一，那么它显然就是一个异样的样本。

对于数据样本 X_i, 假如其基于 k 维特征向量重构的样本为 X_ik^’ , 则该数据样本的异样得分能够用如下的公式计算：

聚类分析办法

此类办法利用聚类算法（如 K -means、_x0008_DBSCAN 等）看待检测数据进行聚类，通过聚类的后果来分辨失常与异样的数据，是一种典型的非监督式异样检测技术。通常来讲，基于聚类的异样检测可基于三种假如来分辨异样数据：

不属于任何簇（Cluster）的数据即为异样；
间隔簇核心很远的数据即为异样；
归属于数据点少或稠密簇的数据即为异样。

应用聚类算法进行异样检测，可利用大量已有的聚类研究成果。然而，聚类与异样检测还是有较大差别的，异样检测的指标在于寻找不失常的数据，而聚类的目标在于确定数据归属的类别。而且，很多聚类算法并未针对工夫序列数据做优化，算法执行效率往往不高。

one-class 分类办法

对失常数据建设辨别性边界，异样点被划分到边界外。常见的办法有 OC-SVM、SVDD 等。

Deep one class

该类的典型办法为：Deep SVDD [11]、OC-NN [20]。

Deep clustering

采纳深度学习的聚类办法个别是用神经网络对输出数据进行编码，而后认为最初的编码序列能够代表神经网络的很多特色，而后咱们对编码序列进行聚类就能够达成聚类的目标。该类办法被用于异样检测的包含：CAE-l2 cluster、DAE-DBC。

CAE-l2 cluster：在 autoencoder 两头退出了 L2 标准化以及 k -means。

DAE-DBC：先利用 autoencoder 降维，而后通过聚类办法判断异样值。

Autoencoder

一个通用的主动编码器由编码器和解码器组成，编码器将原始数据映射到低维特色空间，而解码器试图从投影的低维空间复原数据。这两种网络的参数通过重构损失函数来学习。为了使整体重构误差最小化，保留的信息必须尽可能与输出实例 (如失常实例) 相干。

典型案例有稠密主动编码器（sparse AE）、去噪主动编码器（denoising AE）、膨胀主动编码器（contractive AE）、鲁邦主动编码器（Robust Deep AE）等，基本原理都较为简单。

该类办法的长处是可能通过非线性办法捕获简单特色，试图找到失常实例的一种通用模式，毛病是如何抉择正确的压缩水平，以及如何解决“过拟合”的问题（网络拟合的太好以至于异样实例也“埋伏”在低维特色空间中）。为了解决这个毛病，有研究者应用正则化或者记忆矩阵等等办法。

Generative models

这种办法通常旨在学习生成网络 G 的潜在特色空间，使潜在空间可能很好地捕捉到给定数据背地的常态。将生成模型用于异样检测是基于在生成网络的潜在特色空间中失常实例比异样实例可能更精确地被产生这一假如。理论实例和生成实例之间的残差被定义为异样分数。

典型案例有 AnoGAN、GANomaly、Wasserstein GAN、Cycle GAN、VAE 等。该类办法的关键问题是如何设计适合的生成器和指标函数。

用于异样检测的数据通常可分为两类：

序列数据：如 voice, text, music, time series, protein sequences；

非序列数据：如 images, other data。

下方链接为罕用的异样检测数据集，该 git 仓库中保护了多种通用的异样检测数据集。

https://github.com/GuansongPa…

下方链接为工夫序列异样检测数据集，该 git 仓库中保护了工夫序列异样检测算法相干的软件、包、数据集等。

https://github.com/rob-med/aw…

云智慧已开源数据可视化编排平台 FlyFish。通过配置数据模型为用户提供上百种可视化图形组件，零编码即可实现合乎本人业务需要的炫酷可视化大屏。同时，飞鱼也提供了灵便的拓展能力，反对组件开发、自定义函数与全局事件等配置，面向简单需要场景可能保障高效开发与交付。

如果喜爱咱们的我的项目，请不要遗记点击下方代码仓库地址，在 GitHub / Gitee 仓库上点个 Star，咱们须要您的激励与反对。此外，即刻参加 FlyFish 我的项目奉献成为 FlyFish Contributor 的同时更有万元现金等你来拿。

GitHub 地址： https://github.com/CloudWise-OpenSource/FlyFish

Gitee 地址： https://gitee.com/CloudWise/f…

微信扫描辨认下方二维码，备注【飞鱼】退出 AIOps 社区飞鱼开发者交换群，与 FlyFish 我的项目 PMC 面对面交换～

关于深度学习:异常检测算法分类总结含常用开源数据集

异样的概念与类型

异样检测的应用领域

异样检测思路与办法总结

基于标签的异样检测算法分类

基于模型的异样检测算法分类

基于传统办法的异样检测模型

基于深度学习的异样检测模型

异样检测数据集

异样检测数据类型

异样检测开源数据集

开源我的项目举荐