关于网络:深度模型的日志异常检测还有谁不会

摘要：日志异样检测的外围是借助AI算法主动剖析网络设备日志来发现并定位故障，依据送入检测模型的数据格式，日志异样检测算法模型分为序列模型和频率模型，其中序列模型又能够分为深度模型和聚类模型。

AIOps（Artificial Intelligence for IT Operations）即智能运维，将AI利用于运维畛域，基于已有的运维数据（日志、监控信息、利用信息等），通过机器学习的形式来进一步解决自动化运维没方法解决的问题。华为AIOps使能服务积淀了10+开箱即用的智能APP，笼罩网络保护、网络体验、网络布局、设施故障预测等应用领域，蕴含KPI异样检测、硬盘异样检测、故障辨认及根因定位、日志异样检测等。其中日志异样检测(Log Anomaly Detection,LAD)实时监控日志，辨认并举荐根因异样，辅助运维人员定位故障根因，晋升运维效率。

1. 为什么须要日志异样检测？

通信网络中部署的大规模设施在运行过程中产生海量日志。如图1所示，日志是一种时序文本数据，由工夫戳和文本音讯组成，实时记录了业务的运行状态。通过收集并剖析日志，能够发现或预知网络中已产生或潜在的故障。

图1 windows公开数据集中的局部日志样例[1]

目前日志标准不对立。如图2所示，不同类型的设施打印出的日志格局也不同，且日志数据呈现出非结构化的特点。次要体现在日志工夫格局不对立，日志记录的级别不对立，不同厂家自定义的业余词汇或缩略语不对立。这些问题减少了日志剖析的难度。

图2 四种不同标准的日志样例数据[1]

此外，古代网络系统规模宏大，每小时打印日志约50Gb(约1.2亿~ 2亿行)的量级[2]，若依附人工剖析日志数据来辨认网络中是否产生了故障则效率低下，因而有必要引入AI算法进行日志异样检测，以达到升高运维老本，显著晋升业务体验的目标。

自2017年Min Du等人提出DeepLog以来[3]，基于序列的深度学习建模逐步成为近年来钻研的热点。原始的DeepLog次要包含两个局部：模板序列异样检测模型（Log key anomaly detection model）和参数值异样检测模型(Parameter value anomaly detection model)。模板序列异样检测模型通过学习失常日志打印对应的工作流，而后对测试数据进行推理，以检测出是否存在违反工作流的异样日志。参数值异样检测模型则是对每一个模板（Log key或Template）构建一个模型，用推理出的参数值与理论参数值作比照，比照后果在置信区间内则认为是失常，否则为异样。模板序列异样检测模型的毛病在于对模板应用one-hot向量编码，无奈学习出不同模板之间的语义相似性。参数值异样检测模型的毛病在于建模的数量太多，有多少个模板就要建设多少个模型，实现起来工作量较大。针对上述问题，2019年与2020年Weibin Meng等人先后提出Template2Vec和Log2Vec办法[4,5]，能够学习出模板之间的语义相似性，并且可能解决新模板的在线学习问题。

2. 日志异样检测是如何实现的？

日志异样检测的外围是借助AI算法主动剖析网络设备日志来发现并定位故障，依据送入检测模型的数据格式，日志异样检测算法模型分为序列模型和频率模型，其中序列模型又能够分为深度模型和聚类模型。本期次要分享近年来钻研的热点：深度模型。

2.1 日志解析

非结构化的日志数据间接解决十分艰难。通常的做法是通过日志解析失去日志的模板，而后再对模板进行异样检测。模板相当于日志的“摘要”，日志能够视作模板加参数失去。例如，模板Send Bytes to ，加上参数size=120, block=blk4612，应用打印函数print()能够失去一条具体的日志Send 120 Bytes to blk4612。扭转参数值size=256, block=blk3768，能够失去另一条日志Send 256 Bytes to blk3768。日志解析相当于日志打印的逆过程，由日志反向解决失去模板。以Pinjia He等人提出的Drain办法为例[6]，简略阐明日志解析的过程。Drain认为具备雷同长度的（即模板中token个数）日志，其业务含意具备相似性，因而长度是模板提取的一个重要判据。此外，特定的关键字也代表了特定的业务含意。变量个别认为是纯数字或者数字与字母等其余符号的组合。日志解析如图3所示，首先将变量token转换为，而后依据长度辨别类别，最初依据关键字辨别类别，最终失去一个模板。例如Receive from node blk_3587通过解决后失去模板Receive from node 。提取完模板内容后，会调配一个惟一的ID。

图3 模板与日志的关系以及日志解析原理图

2.2 异样检测

2.2.1 DeepLog模型

以DeepLog的Log key anomaly detection model为例，网络结构如图3所示，其中LSTM原理能够参看文献[3]。输出为one-hot编码模式（备注：此处不必one-hot编码也是能够的，间接输出从0开始编码的模板ID即可），h为窗口长度，即x为t时刻之前的h个模板组成的序列。示意第t个时刻呈现的模板，假如模板ID的汇合为{0,1, …,M}，则，DeepLog采纳两层LSTM，之后接全连贯网络(FC)，通过softmax函数解决后，输入各个模板的概率分布，其中_n_为模板的个数。

图4 DeepLog网络结构图

在训练态，收集设施失常运行时产生的日志获取训练集，具体步骤如下：

Step1: 取设施失常运行时打印的日志，通过日志解析失去模板序列；

Step2: 按task_id（或线程号、工作号）提取模板序列；

Step4: 应用训练数据和梯度降落法等算法训练神经网络。

从上述收集训练数据的过程中能够发现，整个过程只要求训练数据来自于零碎失常运行或故障占比很小的日志。数据标签不须要人工标注，因而该模型能够认为是一个无监督的深度学习模型。

图5 训练态收集训练数据

图6 推理态示意图

推理态步骤如下：

Step1: 取待检测的推理日志，通过日志解析失去模板序列；

Step2: 按task_id（或线程号、工作号）提取模板序列；

Step3: 加载训练后的模型，对各个task_id对应的序列滑动窗口顺次检测；

DeepLog输出数据的编码方式为one-hot，所以无奈学习出两个模板之间的语义类似度，例如，如果模板数据库的表中共有3个模板，如表1所示。从模板ID或者one-hot编码无奈学习出1号模板与2号模板业务意义相同，也学不到1号模板与3号模板业务意义相近。因而，原始的DeepLog的学习能力是有局限性的。

表1 模板的one-hot编码示例

2.2.2 Template2Vec模型

为了学习出模板的业务含意或语义，Weibin Meng等人在应用DeepLog之前，设计了一个Template2Vec向量编码。核心思想是参照Word2Vec[7]的设计思路，提出了模板向量Template2Vec。Template2Vec将模板编码成语义向量，以代替原始DeepLog中的模板索引或one-hot编码。对于新呈现的模板，则将其转换为一个最靠近的已有模板。Template2Vec原理如图7所示:

图7 Template2Vec原理

具体步骤如下：

Step 1 : 在WordNet[8]中对模板内容中的自然语言单词进行同义词和反义词搜寻(如图7中的down和up)，之后，运维人员再对具备业务知识的词汇辨认同义词和反义词(如图中的Interface和Vlan-Interface)，并将其转化为失常的自然语言词汇。

Step 2: 利用dLCE [9]生成模板中单词的词向量，如图7中的Word vectors。

Step 3: 模板向量是模板中单词的词向量的加权平均值。如图中的Templates vectors

Template2Vec联合了运维人员的业余畛域常识和自然语言解决中的dLCE模型，以便精确生成模板向量。例如对模板Receiving blk src dest的Template2Vec求解过程如下。

图8 Template2Vec计算过程示意图

借助Template2Vec将模板序列转换为语义向量序列，之后送入DeepLog即可进行日志异样检测。

2.2.3 Log2Vec模型

Template2Vec存在一个较大的问题：不能在运行态或推理态解决日志中词汇表外（OOV）的新词汇。为了解决这一问题，提出了Log2Vec办法。Log2Vec次要蕴含两局部：日志专用的词嵌入（log-specific word embedding, LSWE）和新词处理器（OOV Word processor）.

LSWE能够看作在Template2Vec的根底上，退出了关系三元组，即减少了关联信息。具体做法是：(1) 对于通用的关系三元组采纳Dependence Trees[10]办法进行语义向量转化，(2) 对于业务畛域范畴内的三元组，退出专家教训来辨认解决。

新词处理器则采纳MIMICK [11] 来解决运行中呈现的OOV单词。应用办法如图9所示。首先，在已有的词汇数据集上训练出可用的MIMICK模型。而后，应用该模型在OOV单词上将其转换为一个惟一的向量。

图9 新词处理器原理图

3. AIops中的日志异样检测成果展现

NAIE的AIOps中的日子异样检测模型服务，可能实时监控日志，辨认并举荐根因异样。内置多种类型算法，无需定制即可反对不同网元日志的异样检测；具备在线学习能力，继续晋升检测精度，辅助运维人员定位故障根因，晋升运维效率。

例如，对某个网元的某个计算节点的日志监控过程中，如图10所示，实时统计呈现的异样量，给出各个异样对应的要害日志。若算法报出的后果存在误报，如图11所示，用户能够退出业务反馈，反馈的误报异样点将会被在当前的检测中被过滤掉。因为日志蕴含了丰盛的畛域业务知识，如图12所示，每条要害日志都会给出上下文，辅助运维人员定位具体的异样内容。

图10 异样检测与要害日志举荐

图11 能够退出用户反馈

图12 异样日志上下文

本文作者在1月22日20:00在DevRun开发者沙龙直播具体介绍日志异样检测，直播间有泛滥互动奖品等待大家，点击直播

参考文献

[1] https://github.com/logpai/loghub

[2] Shilin He, Jieming Zhu, Pinjia He, Michael R. Lyu. Experience Report: System Log Analysis for Anomaly Detection, IEEE International Symposium on Software Reliability Engineering (ISSRE), 2016. (ISSRE Most Influential Paper).

[3] Min Du, Feifei Li, Guineng Zheng, Vivek Srikumar. DeepLog: Anomaly Detection and Diagnosis from System Logs through Deep Learning. CCS-2017

[4] Meng W, Liu Y, Zhu Y, et al. LogAnomaly: Unsupervised Detection of Sequential and Quantitative Anomalies in Unstructured Logs[C]//IJCAI. 2019: 4739-4745.

[5] Meng W, Liu Y, Huang Y, et al. A semantic-aware representation framework for online log analysis[C]//2020 29th International Conference on Computer Communications and Networks (ICCCN). IEEE, 2020: 1-7.

[6] Pinjia He, Jieming Zhu, Zibin Zheng, and Michael R. Lyu. Drain: An Online Log Parsing Approach with Fixed Depth Tree. ICWS’2017

[7] Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781, 2013.

[8] George A Miller. Wordnet: a lexical database for english. Communications of the ACM, 38(11):39–41, 1995.

[9] Kim Anh Nguyen, Sabine Schulte im Walde, and Ngoc Thang Vu. Integrating distributional lexical contrast into word embeddings for antonym-synonym distinction. arXiv preprint arXiv:1605.07766, 2016.

[10] Katrin Fundel, Robert K¨uffner, and Ralf Zimmer. Relex—relation extraction using dependency parse trees. Bioinformatics, 23(3):365–371, 2007.

[11] Yuval Pinter, Robert Guthrie, and Jacob Eisenstein. Mimicking word embeddings using subword rnns. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 102–112, 2017.

点击关注，第一工夫理解华为云陈腐技术~

关于网络:深度模型的日志异常检测还有谁不会

1. 为什么须要日志异样检测？

2. 日志异样检测是如何实现的？

2.1 日志解析

2.2 异样检测

3. AIops中的日志异样检测成果展现

参考文献

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于网络:深度模型的日志异常检测还有谁不会

1. 为什么须要日志异样检测？

2. 日志异样检测是如何实现的？

2.1 日志解析

2.2 异样检测

3. AIops中的日志异样检测成果展现

参考文献

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复