关于运维自动化:10分钟学会如何在智能运维中进行日志分析

46次阅读

共计 3642 个字符,预计需要花费 10 分钟才能阅读完成。

云智慧 AIOps 社区是由云智慧发动,针对运维业务场景,提供算法、算力、数据集整体的服务体系及智能运维业务场景的解决方案交换社区。该社区致力于流传 AIOps 技术,旨在与各行业客户、用户、研究者和开发者们独特解决智能运维行业技术难题,推动 AIOps 技术在企业中落地,建设衰弱共赢的 AIOps 开发者生态。

云智慧智能研究院 着眼于运维人员在日志剖析方面所面临的问题与理论需要 ,以 日志语义异样检测为切入点 ,进行了相干的剖析与试验。对在智能运维中如何进行日志剖析,给出了 基于日志语义异样检测的答案

一、背景

日志在 IT 运维中扮演着重要角色。日志记录了软件系统运行时的详细信息,蕴含着丰盛的零碎信息。 零碎开发人员与运维人员能够依据日志监控零碎分析零碎的异样行为与谬误。因而,如何进行日志的异样检测也成为智能运维畛域亟待解决的问题 日志异样检测能够分为语义异样(执行后果)、执行异样(执行日志序列)与性能异样(执行 工夫 。本文针对日志语义异样检测进行了剖析与试验。

二、问题与挑战

  1. 日志异样类型

日志记录着零碎在某个 工夫 点执行了某些操作以及相应操作的后果。 因而,当某些谬误产生导致系统异样时,日志中也会有相应异样记录。日志中记录的异样信息能够帮忙零碎开发人员与运维人员监控零碎,并分析零碎的异样和谬误,从而疾速定位异样、修复异样,以保护零碎的稳定性。因而,如何主动判断谬误日志中蕴含的异样类型成为亟待解决的问题。

实际上,尽管 IT 零碎 / 服务出现异常的场景泛滥、状况简单,然而依然 能够对异样类型进行大抵分类,如网络异样、数据库异样、硬件异样、I/ O 异样、操作系统异样等。 每一个类型又能够进行细分,以硬件异样为例,可能存在 CPU 异样、磁盘空间有余、磁盘损坏等硬件上的异样。因而,主动判断日志异样类型的前提在于,制订对立的日志异样类型阐明规范、各类别中的细分类与特色,并标注一批规范的数据集进行学习。

  1. 日志与自然语言文本的区别

与其余 NLP 工作相似,基于语义异样的日志分析方法须要首先对日志进行向量化示意。然而 日志与自然语言文本有所不同:

(1)日志为半结构化文本 ,日志通常包含日志头与日志形容信息,日志头中常常蕴含工夫戳、起源、日志等级等字段;而 日志形容信息中则蕴含对以后操作与对应后果的形容,蕴含丰盛的语义信息

(2)日志中存在大量反复 ,在日志形容信息中蕴含常量信息与变量值,往往将 变量值作为参数符号化 后,大量日志能够压缩为一个日志模板;

(3)日志中蕴含大量驼峰格局的连写字符串,这与不同编程语言的函数、类等命名格局无关,如 android 系统日志中,常见 SendBroadcastPermission、DisplayPowerController、KeyguardViewMediator 等字符串模式。

(4)越成熟的零碎,其日志格局与形容越对立,因而 成熟的零碎 / 中间件的日志数据中蕴含的词汇量较小。

  1. 日志的向量化

基于日志文本的特殊性,对于日志的向量化示意须要思考以下问题:

(1)日志 向量化之前须要提取日志形容字段,对日志形容字段进行初始化;

(2)日志中的变量值通常为无意义的数值或者不同的 ip、url、path 等,若将原始参数值进行向量化,则会导致词汇量微小且影响后续计算,因而 须要首先进行命名实体辨认,对变量值进行辨认与替换

(3)日志非凡的写法 须要制订新的规定对日志进行分词,而不能仅采纳通常的英文符号分词形式;

(4)日志反复量越大且越成熟的零碎,其日志格局与形容越对立会导致日志无效词汇量少,后续利用中会呈现 OOV 问题,因而 须要联合日志数据与通用数据进行向量化训练。

三、基于语义异样的日志剖析

本文提出了一种基于语义异样的日志分析方法,如下图所示:

  1. 数据预处理

数据预处理旨在 将原始日志数据处理为算法要求的规范输出数据 ,整体流程包含: 命名实体辨认、分词、过滤、大小写转换、向量化等。其中,命名实体辨认须要对 timestamp,url,ip,file,path,number,email 等日志中经常出现的实体进行辨认;分词须要思考日志中常见的驼峰表达式;在日志向量化过程中,利用通用语料(wikidata)+ 零碎 / 中间件日志语料 + 业务日志语料训练词向量,最终,词向量维度为 200 维,词库大小为 583511。

  1. 日志起源检测

如前文所说,越成熟的零碎 / 中间件 / 服务,其日志格局与形容越对立。因而,可针对不同起源的日志进行剖析,总结其日志格局,并提取正则表达式,为每一个起源的日志构建日志格局,依据日志格局检测日志起源。 咱们从 logpai 的 loghub 以及本公司业务零碎中获取到包含 linux、mac、android、apache、arangodb、clickhouse、hadoop、ignite、kafka、nacos、ntpd、openstack、proxifier、redis、spark、ssh、tengine、zookeeper 等 18 个零碎 / 中间件在内的日志,并提取日志格局,如下:

基于规定的日志起源检测办法,针对不同起源组件的日志进行测试,每个组件日志各抉择 10000 条日志进行测试,准确率达 99.94%。因而,针对成熟的零碎 / 两头组件,构建规定进行起源检测能够达到极高的准确率。

3. 日志分类模型

通常 能够利用日志中蕴含的日志等级字段,如 debug,info,warning,error 等,对日志进行分类,然而理论中这种日志分类形式通常会存在两个问题:

(1)有些零碎 / 业务日志中并不蕴含日志等级字段,如 linux、mac、ntpd、proxifier、redis 等,无奈用日志等级字段进行分类;

(2)有些零碎 / 业务日志中,日志等级字段标注不精确, 或者将异常情况产生时的相干状态或状况标注为“error”等,实际上这类日志语义上并不蕴含错误信息。

因而,咱们首先对谬误日志与异样日志进行辨别:

异样日志:产生异样时打印的日志,可能仅为异样产生时的某个状态或状况阐明,自身并不蕴含错误信息;

谬误日志:语义中蕴含错误信息的日志。

本文中,将日志分为失常日志与谬误日志,即 依据日志的语义信息将日志进行分类 首先结构数据集 :采集零碎 / 中间件日志、业务日志,提取日志模式并进行去重, 采纳人工标注的形式标注数据集,抽取失常日志 8926 条,谬误日志 4051 条进行试验 利用传统机器学习中的二分类算法如 svm , 集成学习算法随机森林,深度学习的 bert 别离进行试验,后果如下:

4. 异样分类模型

(1)异样类型分类

首先,对日志中蕴含的异样类型进行剖析与总结,咱们 将日志中蕴含的异样类型分为:文件 / 文件夹操作异样、网络异样、数据库异样、硬件异样、零碎异样和其余异样 6 类。每一类中别离蕴含多个细分类异样,如文件 / 文件夹操作异样中蕴含文件或目录不存在、文件或目录无拜访权限、读 / 写文件失败、其余 IO 异样等。具体异样类型及 ID 如下所示。

(2)试验数据集

在数据采集过程中发现,上述异样类型及中异样的细分类数据集存在类别不均衡且某些细分类中没有数据的状况,因而 采纳粗分类进行异样类型分类试验,将日志异样类型分为 6 类:文件 / 文件夹操作异样、网络异样、数据库异样、硬件异样、零碎异样、其余异样。各分类数据量如下:

后续试验中发现,因为 4: 硬件异样数据量少会导致试验后果较差;而硬件异样能够认为是零碎异样的一种,因而将 4,5 进行合并,最终数据集如下:

(3)算法及试验后果剖析

利用随机森林进行多分类试验,试验后果如下:

单个类别后果如下:

四、总结

在本文中,咱们提出了 一种基于语义异样的日志分析方法,并联合日志起源造成了输出一条原始日志,输入为 < 日志起源,日志类型,异样类型 > 的算法流程 ,以此提取出日志中蕴含的丰盛的语义异样信息,从而 为零碎开发人员与运维人员监控零碎分析异样行为和谬误提供了无力撑持。

写在最初

近年来,在 AIOps 畛域疾速倒退的背景下,IT 工具、平台能力、解决方案、AI 场景及可用数据集的迫切需要在各行业爆发。基于此,云智慧在 2021 年 8 月公布了 AIOps 社区, 旨在树起一面开源旗号,为各行业客户、用户、研究者和开发者们构建沉闷的用户及开发者社区,独特奉献及解决行业难题、促成该畛域技术倒退。

社区先后 开源 了数据可视化编排平台 -FlyFish、运维治理平台 OMP 、云服务治理平台 - 摩尔平台、 Hours 算法等产品。

可视化编排平台 -FlyFish:

我的项目介绍:https://www.cloudwise.ai/flyF…

Github 地址:https://github.com/CloudWise-…

Gitee 地址:https://gitee.com/CloudWise/f…

行业案例:https://www.bilibili.com/vide…

局部大屏案例:

请您通过上方链接理解咱们,增加小助手(xiaoyuerwie)备注:飞鱼。退出开发者交换群,可与业内大咖进行 1V1 交换!

也可通过小助手获取云智慧 AIOps 资讯,理解云智慧 FlyFish 最新进展!

正文完
 0