本文转录自:北大博士后严川在云智慧 AIOps 社区举办的 Meetup 上进行的《AIOps 指标相干算法体系》分享。
直播回放:戳此查看在线回放
PPT 下载:戳此下载材料
智能运维算法场景概览
传统运维 VS 智能运维
传统运维:
特点:处理速度慢,人力需要大;在海量监控数据下,传统运维效率低下。
- 故障发现工夫久
- 故障定位工夫长
- 故障修复工夫长
智能运维
特点:处理速度快、人力需要小;在海量监控数据下,智能运维效率高。
- 故障发现工夫快
- 故障定位工夫短
- 故障修复工夫短
运维场景系统分析
智能运维场景系统分析
智能运维:运维场景 + 智能技术,其围绕着指标 / 日志 / 追踪 / 告警四因素及其转化的 AI 使能。
故障发现 VS 指标算法场景
指标异样检测场景
智能运维中指标异样检测的意义
在运维畛域中,指标异样检测是其余智能运维场景建设的根底,异样检测的后果将为后续的告警压缩、故障定位、故障自愈等场景提供重要输出。
- 现有的监控告警零碎大部分采纳人工设定规定或阈值的形式来实现
- 中大型业务零碎中会面临更多的 KPI 数量,更简单的 KPI 间的关联关系,以及更多样性的 KPI 型态
- 运维畛域中,人工设定规定或阈值的办法耗时且容易误报和漏报
智能运维中指标异样检测的利用场景
业务指标
- 接口访问量
- 用户数
- 响应工夫
根底监控指标
- 主机零碎指标:CPU 利用率、内存利用率、IO 利用率、温度、电压
- 数据库指标:慢 sql 数量、连贯响应时长、缓冲区命中率、表空间使用率
- 中间件指标:socket 数量、服务器响应工夫、线程池应用状况
- 存储设备指标:磁盘使用率、控制器信息、风扇信息
经营指标
- 银行跑批业务
- 乘车码主被扫业务
时序异样监测在运维畛域落地的艰难
海量监控指标
企业的设施数、零碎数众多,运维零碎须要对海量指标进行监控,以保障企业服务的稳固运行。
KPI 的多样性
有监督异样检测算法对海量监控指标的老本高,以后只能从无监督视角进行检测,这对异样检测的准确性带来了更大的挑战。
某气象相干数据
异样类型多
异样类型包含“点异样”、“上下文异样”、“群体异样”、“缺失值”等
某银行零碎业务数据
异样规范不统一
不同指标、资源配置、运维人员,对同一模式,可能会有不同的判断规范、不同的 ground truth。算法须要适配不同的敏感度需要。
节假日流动治理
节假日和经营流动时,监控指标常会生成与常态不统一的模式,减少异样检测难度。
指标异样检测的挑战
繁多算法难以适配多种数据类型
数据异样 vs 业务异样 vs 调参
单指标异样检测常见算法
简略统计类
时序合成类
指标分类与指标异样检测相结合
解决繁多算法无奈适配多种数据类型问题
指标分类
常见的数据类型
指标分类中周期性测验的重要性
周期性数据在所有数据中占比不高(25%),但通常具备较高价值
检测数据:
1 是否具备周期
2 具备多少周期
3 每个周期成分如何
对于简化时序异样检测问题至关重要
单指标异样检测在实在数据上的利用
内存使用率数据
交易量数据
指标预测场景
运维畛域时序预测的意义
运维畛域:
是其余智能运维场景建设的根底(容量布局、异样检测、告警压缩、故障定位、故障自愈等场景)
经营和网络安全: 关注增长和需要
运维畛域预测典型的利用场景
根底监控指标
- 主机零碎指标:CPU 利用率、内存利用率、IO 利用率、温度、电压
- 数据库指标:缓冲区命中率、表空间使用率
- 中间件指标:socket 数量、服务器响应工夫、线程池应用状况
- 存储设备指标:磁盘使用率
经营指标
- 银行业务量
- 网络容量布局
- 乘车码主被扫业务
指标预测面临的挑战
繁多算法难以适配多种数据类型
数据品质对预测后果的影响
常见的预测算法
统计类:
时序合成类:
指标预测分类的重要性
不同品种算法实用的数据类型不同,是否须要集成学习?
指标预测实例
磁盘占用率
零碎 CPU 使用率
指标预测理论案例
某运营商使用实例
cpu 使用率预测
对于 Meetup
AIOps Developer Meetup 是由 AIOps 社区推出的,面向宽广开发者的系列线上直播及线下分享流动,咱们将汇聚 AIOps 社区专家团的力量给你提供优质的技术内容,无论是技术解读、开源治理、行业解决方案,置信宽广 developers 总能在这里找到你想要的内容。
AIOps 社区是由云智慧发动,针对运维业务场景,提供算法、算力、数据集整体的服务体系及智能运维业务场景的解决方案交换社区。该社区致力于流传 AIOps 技术,旨在与各行业客户、用户、研究者和开发者们独特解决智能运维行业技术难题、推动 AIOps 技术在企业中落地、建设衰弱共赢的 AIOps 开发者生态。
最新 Meetup 预报
戳此可进行报名