共计 3812 个字符,预计需要花费 10 分钟才能阅读完成。
云智慧 AIOps 社区是由云智慧发动,针对运维业务场景,提供算法、算力、数据集整体的服务体系及智能运维业务场景的解决方案交换社区。该社区致力于流传 AIOps 技术,旨在与各行业客户、用户、研究者和开发者们独特解决智能运维行业技术难题,推动 AIOps 技术在企业中落地,建设衰弱共赢的 AIOps 开发者生态。
前言
日志剖析作为 AIOps(人工智能与运维畛域相结合)的重要子畛域正受到学术和工业界日益增长的关注,因而涌现出了许多神经网络与日志剖析联合的经典模型,在理论利用中也获得了较好的成果。
本次学术论坛咱们邀请了云智慧算法实习生、北京航空航天大学博士在读生郭同学为咱们从学术界角度简要介绍该畛域与深度学习联合的近期停顿。
学术论坛内容
一、日志钻研概述
二、学术前沿工作分享
三、自研模型分享
四、总结
一、日志钻研概述
钻研现状
日志数据由零碎运行产生,它详尽形容了零碎大规模外部事件以及用户的用意。随着大规模 IT 零碎的疾速倒退,日志数据的数量曾经增长到传统办法难以剖析的水平。除此之外,日志的标签获取与标注也比拟艰难。下图展现了从代码到日志的过程,雷同零碎的日志也会产生个性化内容,咱们能够在代码中定义任何咱们想要的零碎反馈。
为解决上述瓶颈,运维人员尝试通过集成人工智能算法来加强 IT 运维能力,由此诞生过一批基于传统机器学习算法。近些年,随着计算算力倒退和数据体量增大,深度学习技术开始被用于日志剖析畛域,研究者们认为半结构化的日志音讯也蕴含局部零碎语义,相似于自然语言语料。因而研究者们纷纷采纳语言模型对日志数据进行建模剖析,例如 LSTM,Transformer 等。为解决标签难以获取问题,一批研究者采纳自监督、无监督,弱监督、半监督等不须要残缺标签的办法,例如近期呈现的 Log 畛域的 Bert 等。也有采纳迁徙学习、集成学习、继续学习等不同的学习形式去各方面高效晋升运维效率。总而言之,研究者们正在深挖深度学习在该畛域的钻研和利用价值。
围绕日志开展的工作
对于日志的钻研大抵能够分为三个方向:Log Compression(日志压缩)、Log Parsing(日志解析)、Log Mining(日志开掘)。对于日志压缩,咱们钻研如何在不失落重要信息的根底上高效压缩日志。日志解析就是从软件日志中主动提取事件模板和要害参数,日志开掘中蕴含了各种工作,包含日志异样检测,日志告警等,开掘的次要目标也是为了进步零碎的可靠性。下图给出近期论文的数量和方向,咱们能够发现论文数量逐年回升且大部分论文聚焦于日志开掘方向。
二、学术前沿分享
本文此次学术分享次要聚焦于日志异样检测工作。日志异样检测,顾名思义,次要是检测日志数据中的零碎异样。
Log Parsing(日志模式解析)
海量日志数据之间语义相似性较高,理论需要须要将日志示意。因而学者冀望对日志提取出固定的模版 / 模式以求代表整个日志数据库。经调研,以后日志异样检测办法大都须要日志解析这一步,起因在这边简述。
上图展现了日志模版提取过程,从上到下顺次是原始日志,解析后的日志模版,结构化好的日志,最初将结构化好的数据送入上游各种日志开掘工作。具体来说,L1、L2、L3、L4、L5示意五条原始日志,咱们通过日志解析算法(Drain parsing)提取出三个模板:T1、T2、T3。通过 Mapping 后咱们失去了五条结构化好的日志,即粉色框中的 L1~L5。日志解析会将咱们认为日志中无关的信息去除,例如Timestep、ID 等。常见的解析算法:Drain(基于树结构类似度)Spell(最长公共子序列)AEL(常数和变量的产生频率)IPLoM(迭代分区策略,依据音讯长度、令牌地位和映射关系等)。
Log anomaly detection(日志异样检测)
2020 年后的深度日志异样检测框架大都有三个局部:日志解析模块 -> 特色编码器 -> 分类器 / 解码器。这一部分将给大家介绍局部深度学习框架。
DeepLog:
Deeplog: Anomaly detection and diagnosis from system logs through deep learning.
如下图所示,模型分为训练和测试两阶段,在训练阶段,原始日志通过日志解析后失去模板,随后通过 LSTM 网络学习表征,预测下一条日志的模板。在测试阶段,测试数据输出模型后失去预测的模板后果,如果预测的模版不在 Top k 个模版内,那么该条日志就被判为是异样的。
LogRobust:
Robust log-based anomaly detection on unstable log data.
该模型基于监督学习,模型应用基于注意力的双向 LSTM 架构。采纳 Drain 进行日志数据解析,特征提取器采纳 Word-to-Vector 和TF-IDF加权技术生成日志表征。模型将失常和非正常日志数据都用于训练,最初分类器来判断日志是否是异样。
HitAnomaly:
Hitanomaly: Hierarchical transformers for anomaly detection in system log.
模型也是基于有监督学习,采纳了基于 Transformer 的架构。日志解析器仍旧采纳Drain, 在模式解析中,模板往往不会保留日志原始的数值信息,然而该模型将失落的数值信息一并送入模型中编码,最大水平的保留了原始日志的信息,这也就是该工作的翻新点所在。
Logsy:
Self-attentive classification-based anomaly detection in unstructured logs.
模型是有监督学习,采纳了基于 Transformer 的架构。这篇工作的翻新点在于没有用日志解析器,而是将整个原始的日志送入编码器编码,这会在最大水平上保留原始语料的信息,然而理论状况中的检测效率也会大大受影响。
三、自研模型分享
Translog
TRANSLOG: A Unified Transformer-based Framework for Log Anomaly Detection.
传送门:https://arxiv.org/pdf/2201.00…
该模型也是基于监督学习,不同于上述模型简直不变的框架,本工作在日志异样检测的思路上进行重建,次要奉献:
- 通过迁徙学习共享日志语义常识,以解决多起源、低资源的日志数据源难以检测问题。
- 在成果达到 SOTA(最优体现)状况下,压缩模型可训参数量至原来的 5%,晋升深度学习模型的利用可能性。
- 基于 Transformer 的全新框架,Pretraining-Tuning两阶段的形式为日志剖析提供新的的学习范式。
出发点:
如下图所示,不同的零碎间存在着雷同的异样问题,因而有些低日志资源的零碎也能够分享一般性日志语义常识进行异样检测。例如图中的 BGL、Thunderbird、Spirit、Liberty 零碎都会产生“Program Not Running”这个异样问题。
框架办法:
模型的框架图如下所示,次要分为两阶段:Pretrainging和 Adapter-based Tuning。 首先将所有的解析好的日志事件序列输出到事后训练好的语言模型中(这里咱们采纳了 BERT 模型)以提取示意。随后采纳Transformer 编码器,在高资源源域数据集上进行训练,来取得共享语义信息,而后对于指标数据源,咱们解冻编码器的参数,只调整指标域数据集上的 Adapter 的参数。这样咱们就达到了将常识从源数据集转移到指标数据集上的目标。
试验后果:
咱们比拟了六种不同的办法,在三个公开数据集上进行测试,最终咱们的算法都取得了 SOTA(最优体现)。同时咱们参数量减少了将近百分之 95%。
四、总结
通过咱们在智能运维行业中的深耕教训以及前沿技术的调研,咱们总结了日志畛域倒退的以下三个趋势:因为行业普遍存在日志自身的标签获取较难的景象,无监督或者弱监督的深度学习办法将大量涌现,帮忙该畛域人员在无标签的数据状况下更好的从事理论钻研和落地倒退;而且随着运维畛域多模态的倒退,引入内部常识,例如常识图谱,亦或者运维数据中的调用链、指标等数据类型来裁减日志自身的原始信息,因而会呈现很多基于自监督的办法和多种模态数据相结合的方向,朝着运维一体化更好的倒退;随着运维数据体量一直增大,相似于自然语言畛域中 Bert 的这种大型模型逐步体现其性能,联合预训练和微调的学习范式,一个学习各种运维常识和日志模式的大模型将有很大机会充当 AIOps 的钻研榜样。
写在最初
近年来,在 AIOps 畛域疾速倒退的背景下,IT 工具、平台能力、解决方案、AI 场景及可用数据集的迫切需要在各行业爆发。基于此,云智慧在 2021 年 8 月公布了 AIOps 社区, 旨在树起一面开源旗号,为各行业客户、用户、研究者和开发者们构建沉闷的用户及开发者社区,独特奉献及解决行业难题、促成该畛域技术倒退。
社区先后 开源 了数据可视化编排平台 -FlyFish、运维治理平台 OMP 、云服务治理平台 - 摩尔平台、 Hours 算法等产品。
可视化编排平台 -FlyFish:
我的项目介绍:https://www.cloudwise.ai/flyF…
Github 地址:https://github.com/CloudWise-…
Gitee 地址:https://gitee.com/CloudWise/f…
行业案例:https://www.bilibili.com/vide…
局部大屏案例: