关于阿里云:从-香农熵-到-告警降噪-如何提升告警精度

作者：董善东 & 白玙

对于大部分人来说，信息是一个十分形象的概念。人们经常说信息很多或信息较少，但却很难说分明信息到底有多少。比方一份帮忙文档或一篇文章到底有多少信息量。直到 1948 年，C.E.Shannon（香农）提出了“信息熵”的概念，才解决了对信息的量化度量问题。信息熵这个词是香农从热力学中借鉴而来来的。热力学中的热熵是示意分子状态凌乱水平的物理量。而香农用信息熵的概念来形容信源的不确定度。

香农的信息熵实质上是对咱们司空见惯的 “不确定景象” 的数学化度量。譬如说，如果天气预报说 “今天下午下雨的可能性是 60%” ，咱们就会不谋而合想到出门带伞；如果预报说 “有 60% 的可能性下雨” ，咱们就会犹豫是否带伞，因为雨伞无用时确是累赘之物。显然，第一则天气预报中，下雨这件事的不确定性水平较小，而第二则对于下雨的不确定度就大多了。

作为数学中颇为形象的概念，咱们能够把信息熵了解成某种特定信息的呈现概率。而信息熵和热力学熵是严密相干的。依据 Charles H. Bennett 对 Maxwell’s Demon 的从新解释，对信息的销毁是一个不可逆过程，所以销毁信息是合乎热力学第二定律的。而产生信息，则是为零碎引入负（热力学）熵的过程。当一种信息呈现概率更高时，表明被流传得更宽泛，或者说被援用的水平更高。咱们能够认为从信息流传角度来看，信息熵能够示意信息的价值，这样子咱们就有一个掂量信息价值高下的规范。

再具体到咱们日常运维工作场景中，各类的告警事件作为最典型的一种信息，在面对每天海量高警事件咱们该如何评估告警的信息价值成为了一个重要问题。

各大监控平台/工具个别有两种形式去辨认指标异样并触发告警事件。第一种是常见的通过设定阈值/动静阈值的形式。第二种就是设定默认规定，触发零碎预设规定事件，例如：机器重启等。与此同时，运维团队往往不会依赖繁多的监控工具，常常须要在各种不同档次工具中都设定对应的监控告警。

在这样的背景下，监控源多元化与监控工具类别多样化，往往导致雷同故障起因在不同监控工具、不同监控规定下，触发出大量反复、冗余的告警事件。甚至在产生大范畴故障时造成告警风暴。运维人员很难从这些海量告警中疾速无效的辨认到底哪些告警事件是重要且精确的信息，这也往往导致无效告警被吞没。因而，对于运维团队和告警产品来说，存在以下几个痛点：

多处监控告警源以及频繁误报导致大量反复、冗余、低效事件，重要事件吞没在其中，无奈无效辨认；
大范畴故障导致的告警风暴；
测试事件等脏数据混在事件中。

什么是 ARMS 智能降噪

ARMS 智能降噪性能依靠于 NLP 算法和信息熵实践建设模型，从大量历史告警事件中去开掘这些事件的模式法则。当实时事件触发后，实时为每一条事件打上信息熵值与乐音辨认的标签，帮忙用户疾速辨认事件重要性。

智能降噪的实现原理介绍

事件核心中大量的历史事件沉积，很难人工实现从这些大量历史事件中形象出事件模式与价值。利用实时监控服务 ARMS ITSM 产品智能降噪功对不同告警源收归到对立平台进行告警事件处理，将这些历史事件进行模式识别，开掘外在关联，建设基于信息熵的机器学习模型辅助用户进行事件重要性的辨认，模型外围步骤包含：

step 1：基于自然语言解决和畛域词汇库，实现事件内容的词向量化，实现事件最小粒度的度量；
step 2：基于信息论中信息熵的概念，联合 tfidf 模型，构建词向量的信息熵值和重要性度量模型；
step 3：利用 sigmod，实现事件的非线性和归一化 “信息熵” 度量；
step 4：联合历史事件的解决记录和反馈，构建模型迭代训练与验证。

利用自然语言解决算法，基于信息论中的信息量和信息熵概念来表征事件重要性，帮忙用户利用大量历史事件训练迭代出辨认事件重要性的模型。当新实时事件触发时，疾速辨认事件重要性。同时，联合信息熵阈值设定，来实现乐音事件过滤与屏蔽。并依据工夫演进以及事件类型与内容变动，模型通过自适应定期实现迭代式更新（更新频率为每周一次），无需用户进行任何操作，即可保障模型准确性。

智能降噪业务价值

业务价值一：智能化辨认反复、低效事件，开掘离奇事件

（1）大量反复、类似事件的辨认

对于大量反复、类似事件，该类事件继续大量呈现在事件告警中，模型对于这类事件的信息熵值会继续给予升高的信息熵，即：这类事件的信息熵值会越来越低，直到最初靠近为 0。这是因为模型期待对于重要的事件，用户能够更多关注响应，而如果事件始终反复、大量触发，往往阐明这类事件用户基本不关怀，从业务逻辑上也辅证了模型机理。

（2）开掘离奇事件

对于在历史事件中未曾呈现、比拟少呈现的事件，模型则会重点关注，认定该类事件为离奇事件，给予以后事件较大的信息熵值，以期待用户更多的关注该类事件。因而，ARMS 智能降噪模型还具备帮忙用户辨认重要事件的性能。

业务价值二：定制化需要反对设定

对于一些用户测试事件或特定字段事件，咱们经常心愿对这类事件进行定制化解决，例如：测试事件只触发查看整个流程，但不须要去点击做任何解决。再比方，有些事件中蕴含了特地重要字段信息，对于这类事件须要优先解决。

业务价值三: 模型具备高成长性

对于历史事件数量较少的用户（事件数量<1000），个别不举荐关上该性能，这是因为历史事件数量过少的状况下，模型很难充沛训练，辨认其内在模式和法则。然而在开启后，模型每周会在本周新产生的事件根底上，进行模型迭代训练。在用户无需关怀的前提下，模型一方面自适应追踪事件模式变动，另外一方面对于原有事件数量不短缺的模型，也在继续进行充沛迭代。

最佳实际

应用流程阐明

step 0：入口

step 1：开启

当感觉事件量过多，反复事件，低效/有效事件过多时，能够抉择开启智能降噪。

step 2：应用

开启后，则会拉取历史 1 个月的事件数据（如果一个月内事件数量过多，目前会拉取一部分进行训练）进行智能模型训练。点击智能降噪，进入详情页。

step 3：参数设定

深刻理解该性能后，用户能够开始思考设定一些要害来进行事件的优先解决和屏蔽。优先词和屏蔽词的详情能够参考名词解释。

名词解释

乐音事件阈值： 开启智能降噪后，咱们会对每一条新事件计算信息熵值。乐音事件阈值设定则是划分乐音/非乐音事件的分界线。
乐音事件： 事件信息熵低于设定信息熵阈值的事件，统称为乐音事件。
非乐音事件： 事件信息熵大于或等于设定信息熵阈值的事件，统称为非乐音事件。
优先词： 在关键词设定中，用户能够设定一些本人想要优先看到的词汇，如：重要， critical 等。当产生事件的事件名称和事件内容蕴含设定的优先词时，以后事件的优先级绝对应进步，防止被辨认成乐音事件。
屏蔽词： 在关键词设定中，用户能够设定一些本人认为不重要的词汇，如：测试， test 等。当产生事件的事件名称和事件内容蕴含设定的屏蔽词时，以后事件会被间接认定为信息熵为 0（如果信息熵阈值设定 >0，则被认定为乐音事件）。
常见词 Top50： 依据历史事件的统计学习，模型会保留一份事件词汇的词频表。常见词则是词频表依照呈现频率大小排序，抉择 Top50 进行展现。

常见问题

什么时候开启该性能

对于历史事件数量 > 1000 的用户，ARMS 智能降噪将进行主动开启操作。

对于历史事件数量仍较少的用户，用户可自行关上，然而模型成果须要一段时间工夫迭代调优。

需不需要批改模型参数

倡议在初期应用，不作批改，采取默认即可。

在理解性能后，能够尝试设定优先词和屏蔽词，以及信息熵阈值，实现更定制化的需要。

点击此处，返回阿里云可观测专题页查看更多信息！

近期热门

#阿里云可观测系列公开课#

关于阿里云:从-香农熵-到-告警降噪-如何提升告警精度

什么是 ARMS 智能降噪

智能降噪的实现原理介绍

智能降噪业务价值

业务价值一：智能化辨认反复、低效事件，开掘离奇事件

（1）大量反复、类似事件的辨认

（2）开掘离奇事件

业务价值二：定制化需要反对设定

业务价值三: 模型具备高成长性

最佳实际

应用流程阐明

step 0：入口

名词解释

常见问题

什么时候开启该性能

需不需要批改模型参数

近期热门

直播间不见不散！

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于阿里云:从-香农熵-到-告警降噪-如何提升告警精度

什么是 ARMS 智能降噪

智能降噪的实现原理介绍

智能降噪业务价值

业务价值一：智能化辨认反复、低效事件，开掘离奇事件

（1）大量反复、类似事件的辨认

（2）开掘离奇事件

业务价值二：定制化需要反对设定

业务价值三: 模型具备高成长性

最佳实际

应用流程阐明

step 0：入口

名词解释

常见问题

什么时候开启该性能

需不需要批改模型参数

近期热门

直播间不见不散！

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复