乐趣区

关于算法:AIOps智能运维中的指标算法场景分享-内附视频ppt资料

本文转录自:北大博士后严川在云智慧 AIOps 社区举办的 Meetup 上进行的《AIOps 指标相干算法体系》分享。

直播回放:戳此查看在线回放

PPT 下载:戳此下载材料

智能运维算法场景概览

传统运维 VS 智能运维

传统运维:

特点:处理速度慢,人力需要大;在海量监控数据下,传统运维效率低下。

  • 故障发现工夫久
  • 故障定位工夫长
  • 故障修复工夫长

智能运维

特点:处理速度快、人力需要小;在海量监控数据下,智能运维效率高。

  • 故障发现工夫快
  • 故障定位工夫短
  • 故障修复工夫短

运维场景系统分析

智能运维场景系统分析

智能运维:运维场景 + 智能技术,其围绕着指标 / 日志 / 追踪 / 告警四因素及其转化的 AI 使能。

故障发现 VS 指标算法场景

指标异样检测场景

智能运维中指标异样检测的意义

在运维畛域中,指标异样检测是其余智能运维场景建设的根底,异样检测的后果将为后续的告警压缩、故障定位、故障自愈等场景提供重要输出。

  • 现有的监控告警零碎大部分采纳人工设定规定或阈值的形式来实现
  • 中大型业务零碎中会面临更多的 KPI 数量,更简单的 KPI 间的关联关系,以及更多样性的 KPI 型态
  • 运维畛域中,人工设定规定或阈值的办法耗时且容易误报和漏报

智能运维中指标异样检测的利用场景

业务指标

  • 接口访问量
  • 用户数
  • 响应工夫

根底监控指标

  • 主机零碎指标:CPU 利用率、内存利用率、IO 利用率、温度、电压
  • 数据库指标:慢 sql 数量、连贯响应时长、缓冲区命中率、表空间使用率
  • 中间件指标:socket 数量、服务器响应工夫、线程池应用状况
  • 存储设备指标:磁盘使用率、控制器信息、风扇信息

经营指标

  • 银行跑批业务
  • 乘车码主被扫业务

时序异样监测在运维畛域落地的艰难

海量监控指标

企业的设施数、零碎数众多,运维零碎须要对海量指标进行监控,以保障企业服务的稳固运行。

KPI 的多样性

有监督异样检测算法对海量监控指标的老本高,以后只能从无监督视角进行检测,这对异样检测的准确性带来了更大的挑战。

某气象相干数据

异样类型多

异样类型包含“点异样”、“上下文异样”、“群体异样”、“缺失值”等

某银行零碎业务数据

异样规范不统一

不同指标、资源配置、运维人员,对同一模式,可能会有不同的判断规范、不同的 ground truth。算法须要适配不同的敏感度需要。

节假日流动治理

节假日和经营流动时,监控指标常会生成与常态不统一的模式,减少异样检测难度。

指标异样检测的挑战

繁多算法难以适配多种数据类型

数据异样 vs 业务异样 vs 调参

单指标异样检测常见算法

简略统计类

时序合成类

指标分类与指标异样检测相结合

解决繁多算法无奈适配多种数据类型问题

指标分类

常见的数据类型

指标分类中周期性测验的重要性

周期性数据在所有数据中占比不高(25%),但通常具备较高价值

检测数据:

1 是否具备周期

2 具备多少周期

3 每个周期成分如何

对于简化时序异样检测问题至关重要

单指标异样检测在实在数据上的利用

内存使用率数据

交易量数据

指标预测场景

运维畛域时序预测的意义

运维畛域:

是其余智能运维场景建设的根底(容量布局、异样检测、告警压缩、故障定位、故障自愈等场景)

经营和网络安全: 关注增长和需要

运维畛域预测典型的利用场景

根底监控指标

  • 主机零碎指标:CPU 利用率、内存利用率、IO 利用率、温度、电压
  • 数据库指标:缓冲区命中率、表空间使用率
  • 中间件指标:socket 数量、服务器响应工夫、线程池应用状况
  • 存储设备指标:磁盘使用率

经营指标

  • 银行业务量
  • 网络容量布局
  • 乘车码主被扫业务

指标预测面临的挑战

繁多算法难以适配多种数据类型

数据品质对预测后果的影响

常见的预测算法

统计类:

时序合成类:

指标预测分类的重要性

不同品种算法实用的数据类型不同,是否须要集成学习?

指标预测实例

磁盘占用率

零碎 CPU 使用率

指标预测理论案例

某运营商使用实例

cpu 使用率预测

对于 Meetup

AIOps Developer Meetup 是由 AIOps 社区推出的,面向宽广开发者的系列线上直播及线下分享流动,咱们将汇聚 AIOps 社区专家团的力量给你提供优质的技术内容,无论是技术解读、开源治理、行业解决方案,置信宽广 developers 总能在这里找到你想要的内容。

AIOps 社区是由云智慧发动,针对运维业务场景,提供算法、算力、数据集整体的服务体系及智能运维业务场景的解决方案交换社区。该社区致力于流传 AIOps 技术,旨在与各行业客户、用户、研究者和开发者们独特解决智能运维行业技术难题、推动 AIOps 技术在企业中落地、建设衰弱共赢的 AIOps 开发者生态。

最新 Meetup 预报

戳此可进行报名

退出移动版