本文转录自:北大博士后严川在云智慧AIOps社区举办的Meetup上进行的《AIOps指标相干算法体系》分享。
直播回放:戳此查看在线回放
PPT下载:戳此下载材料
智能运维算法场景概览
传统运维VS智能运维
传统运维:
特点:处理速度慢,人力需要大;在海量监控数据下,传统运维效率低下。
- 故障发现工夫久
- 故障定位工夫长
- 故障修复工夫长
智能运维
特点:处理速度快、人力需要小;在海量监控数据下,智能运维效率高。
- 故障发现工夫快
- 故障定位工夫短
- 故障修复工夫短
运维场景系统分析
智能运维场景系统分析
智能运维:运维场景+智能技术,其围绕着指标/日志/追踪/告警四因素及其转化的AI使能。
故障发现VS指标算法场景
指标异样检测场景
智能运维中指标异样检测的意义
在运维畛域中,指标异样检测是其余智能运维场景建设的根底,异样检测的后果将为后续的告警压缩、故障定位、故障自愈等场景提供重要输出。
- 现有的监控告警零碎大部分采纳人工设定规定或阈值的形式来实现
- 中大型业务零碎中会面临更多的KPI数量,更简单的KPI间的关联关系,以及更多样性的KPI型态
- 运维畛域中,人工设定规定或阈值的办法耗时且容易误报和漏报
智能运维中指标异样检测的利用场景
业务指标
- 接口访问量
- 用户数
- 响应工夫
根底监控指标
- 主机零碎指标:CPU利用率、内存利用率、IO利用率、温度、电压
- 数据库指标:慢sql数量、连贯响应时长、缓冲区命中率、表空间使用率
- 中间件指标:socket数量、服务器响应工夫、线程池应用状况
- 存储设备指标:磁盘使用率、控制器信息、风扇信息
经营指标
- 银行跑批业务
- 乘车码主被扫业务
时序异样监测在运维畛域落地的艰难
海量监控指标
企业的设施数、零碎数众多,运维零碎须要对海量指标进行监控,以保障企业服务的稳固运行。
KPI 的多样性
有监督异样检测算法对海量监控指标的老本高,以后只能从无监督视角进行检测,这对异样检测的准确性带来了更大的挑战。
某气象相干数据
异样类型多
异样类型包含“点异样”、“上下文异样”、“群体异样”、“缺失值”等
某银行零碎业务数据
异样规范不统一
不同指标、资源配置、运维人员,对同一模式,可能会有不同的判断规范、不同的ground truth。算法须要适配不同的敏感度需要。
节假日流动治理
节假日和经营流动时,监控指标常会生成与常态不统一的模式,减少异样检测难度 。
指标异样检测的挑战
繁多算法难以适配多种数据类型
数据异样vs业务异样vs调参
单指标异样检测常见算法
简略统计类
时序合成类
指标分类与指标异样检测相结合
解决繁多算法无奈适配多种数据类型问题
指标分类
常见的数据类型
指标分类中周期性测验的重要性
周期性数据在所有数据中占比不高(25%), 但通常具备较高价值
检测数据:
1 是否具备周期
2 具备多少周期
3 每个周期成分如何
对于简化时序异样检测问题至关重要
单指标异样检测在实在数据上的利用
内存使用率数据
交易量数据
指标预测场景
运维畛域时序预测的意义
运维畛域:
是其余智能运维场景建设的根底(容量布局、异样检测、告警压缩、故障定位、故障自愈等场景)
经营和网络安全: 关注增长和需要
运维畛域预测典型的利用场景
根底监控指标
- 主机零碎指标:CPU利用率、内存利用率、IO利用率、温度、电压
- 数据库指标:缓冲区命中率、表空间使用率
- 中间件指标:socket数量、服务器响应工夫、线程池应用状况
- 存储设备指标:磁盘使用率
经营指标
- 银行业务量
- 网络容量布局
- 乘车码主被扫业务
指标预测面临的挑战
繁多算法难以适配多种数据类型
数据品质对预测后果的影响
常见的预测算法
统计类:
时序合成类:
指标预测分类的重要性
不同品种算法实用的数据类型不同 ,是否须要集成学习?
指标预测实例
磁盘占用率
零碎CPU使用率
指标预测理论案例
某运营商使用实例
cpu使用率预测
对于Meetup
AIOps Developer Meetup是由AIOps社区推出的,面向宽广开发者的系列线上直播及线下分享流动,咱们将汇聚AIOps社区专家团的力量给你提供优质的技术内容,无论是技术解读、开源治理、行业解决方案,置信宽广developers总能在这里找到你想要的内容。
AIOps社区是由云智慧发动,针对运维业务场景,提供算法、算力、数据集整体的服务体系及智能运维业务场景的解决方案交换社区。该社区致力于流传AIOps技术,旨在与各行业客户、用户、研究者和开发者们独特解决智能运维行业技术难题、推动AIOps技术在企业中落地、建设衰弱共赢的AIOps开发者生态。
最新Meetup预报
戳此可进行报名