共计 2250 个字符,预计需要花费 6 分钟才能阅读完成。
4 月 21 日,博睿数据 ONE 有引力 2023 秋季产品发布会圆满闭幕,Bonree ONE 2023 秋季正式版正式公布,带来更轻、更强、更智能的一体化智能可观测平台。
自适应 AI,让 Bonree ONE 更智能
本文作者
博睿数据 AI 产品经理 马倩
全文共 1835 字,浏览大概需 10 分钟。
在企业业务最前沿的终端用户侧,实时监控端上利用产生的海量级业务申请、CDN 申请、第三方申请,即时发现从端上利用到后盾服务之间的响应迟缓、DNS 解析失败、TCP 建连失败、HTTP404 等性能问题,并依据理论数据迅速甄别其问题本源是运营商网络抖动等外部环境起因,还是本身后盾服务异样等外部起因,从而无效升高问题定位工夫,缩短整体排障修复周期,无力保障业务服务达到 SLA 要求的延时、可用性等规范,帮忙企业建设更灵活、更精准、更智能的运维工作体系。
平台采集各状态数据进入数据中台,通过汇聚、落盘、加工,裸露 API 提供给下层 AI 中台和产品应用,AI 中台利用开箱即用算法和 DIY 算法赋能运维产品,达成 98%+ 的智能告警收敛率,同时自适应 AI 零碎应用实时反馈动静学习和调整,随客户需要利用到各业务场景中。
告警收敛 – 98%+ 的智能告警收敛率
在实现数据接入、标准化之后,将主动开启事件降噪,把多源数据归流于具备雷同数据特色集的告警中。通过对海量芜杂事件降噪成告警,辨认出告警与告警之间的关联性,自定义创立相应的收敛规定,依据相应的收敛规定以及智能 AI 时序收敛规定,进一步将告警收敛成故障。最终实现对海量异样事件的归并解决,造成故障,防止告警风暴,已达成 98%+ 的智能告警收敛率,极大水平升高整体运维老本。
用户价值
1. 解决告警风暴:面对简单简约的告警信息,能够自定义创立多个告警收敛规定,通过收敛规定,压缩告警,生成故障,防止告警风暴。
2. 告警漏报:在传统运维体系中,往往采纳固定阈值的检测形式进行告警,无奈主动适应数据特色变动,导致告警误报、漏报。
Bonree ONE 提供智能异样检测的能力,通过智能化的算法,生成指标的动静基线,自适应数据特色变动,同时提供告警标签收敛、AI 收敛,缩小告警的漏报率。
难点:如何精确收敛?
在数据接入后,面对海量芜杂事件,通过引入自研的 AI 算法,灵便的告警策略设置,实现对告警指标的多维度异样断定,及时、精确的发现监控对象、业务等的异样,曾经很大水平上压缩告警,并缩小告警的漏报。那么在此基础上,咱们如何更精确收敛?
思考告警收敛有 3 种形式:根因收敛、标签收敛、AI 收敛(包含类似收敛、时域收敛)。
1、根因收敛:根因收敛中,咱们认为雷同根因的应该收敛到一块,收敛的实质是相关性剖析。当有一个新的问题事件生成时,开始创立问题树,同时在拓扑关系中定位到此问题事件所属的实体关系,再有新的问题事件进入时,依据以上规定判断,合乎根因收敛相关性即可收敛到此问题树中。如下图:
2、标签收敛:对标签进行雷同、AI 类似筛选,如果切换为“雷同”,依据雷同标签收敛告警;如果切换为“AI 类似”,须要在右侧输入框内仅反对输出 0 -100 的整数。占位符提醒:请输出 0 -100 的整数,当类似度高于以后设置百分比时,则进行收敛。如下图:
3、AI 收敛(类似收敛、时域收敛)类似收敛:分词类似度达到肯定值(可配置),收敛为一个问题。
时域收敛:工夫的相关性(工夫上的相交和蕴含关系),且事件相干字段有重合。
以上 3 种办法,咱们倡议优先应用根因收敛。根因收敛不仅提供了 AI 算法策略,还能够通过根因定位还原问题产生的详细信息,全面详尽的现场还原,是进步故障解决效率的要害。
根因剖析 - 自适应 AI 落地实际之根因深度剖析
基于故障产生的工夫、故障类型和故障主体,通过服务、利用和动态拓扑及调用链关系数据,搜寻并定位到故障源或者故障传递链的根节点,故障源往往是具体的物理(虚构)主机、服务及根底性能,如 cpu、内存、网络、磁盘等。自适应 AI 零碎应用实时反馈动静学习和调整,针对一直变动的环境做出响应,一直增加训练数据造成训练模型,并造成通用化的场景业务反对以及个性化性能定制,将根因深度剖析全面落地实际。
用户价值
1. 晋升排障效率:Bonree ONE 能够主动计算出故障相干的影响范畴,主动关联出相干的指标、日志、调用链、事件、用户会话、业务等。当用户发现某一指标异样或某一笔业务调用链路异样时,能够进一步追踪细查相干的记录明细从而定位问题,晋升排障效率。
2. 现场还原,赋能复盘:通过根因剖析定位到故障后,可查看故障回放,现场还原故障产生的信息,赋能复盘。全面详尽的现场还原,是进步故障解决效率的要害。
难点
如何晋升根因定位准确性?晋升根因定位准确性要从算法准确性晋升及多维分析登程,通过调参、分类等晋升准确度,丰盛算法逻辑,多维分析不同类别问题的可能根因。
思考
1. 吞吐类问题,均匀每分钟的总申请次数,越凑近入口的,越有可能是根因。
2. 迟缓、谬误类问题,深度越深,越是根因。找到实体入口后,依据层级判断,同时工夫产生越早的越有可能是根因。
3. 刹时事件(重启、熔断、配置变更)相比拟于继续事件,是根因的概率更大,因而要思考刹时事件的可能性排序大于继续事件。根因定位的具体规定如下:
ONE 平台提供根因问题回放,现场还原问题产生的信息,如下图:
深度剖析
深度剖析是在根因剖析的根底上进一步拆解下探,从而间接给出可口头的具体起因。
- 对根因后果进一步做多维度剖析,依据问题类别找出引发问题的部分维度。
- 在部分的维度根底上进一步下探,找出理论引发问题的代码、事件(如:探针熔断、配置更改等)的具体信息。