共计 2296 个字符,预计需要花费 6 分钟才能阅读完成。
简介:智能巡检借助弱小的 SLS“告警 2.0”音讯零碎,能够很好的桥接很多外部和内部的零碎(EventBridge、FC 等),也能够借助 SLS 的 SDK 和自定义的函数去解决针对“告警后果”的下一步“剖析工作”,从而更好的实现对于问题的排查和解决。
产品架构
智能异样剖析利用围绕运维场景中的监控指标、程序日志、服务关系等外围因素开展,通过机器学习等伎俩产生异样事件,通过服务拓扑关联剖析时序数据和事件,最终升高企业的运维复杂度,进步服务质量。产品架构图如下所示。
能力阐明:
单个工作反对 3K~5K 个观测对象的单维度、多维度的异样检测
对于工作的检测后果而言,咱们将异样分数和异样状态进行量化,便于进行后续的解决
对于超过 0.75 分数的异样点,咱们将相干的信息(可视化的图)通过告警 2.0 推送到您的钉钉零碎中去
对于全副的检测后果,咱们将检测信息写入到以后的 internal-ml-log 中去,供您通过 SDK 去进行后续的集成
同时在咱们的 App 的工作页面,咱们反对了“标注反馈”性能,您能够对检测的后果进行相干的标注,晋升模型的学习准确度
那么接下来,咱们一起来看下,如何更好的将“巡检”能力嵌入到您的业务零碎中去!
能力集成
智能巡检借助弱小的 SLS“告警 2.0”音讯零碎,能够很好的桥接很多外部和内部的零碎(EventBridge、FC 等),也能够借助 SLS 的 SDK 和自定义的函数去解决针对“告警后果”的下一步“剖析工作”,从而更好的实现对于问题的排查和解决。
工作创立
这里咱们以一个 SLS 的本身的监控场景为例去看下改工具具体要怎么更好的应用。咱们想明确下场景的问题:在 LogStore 中,通过对拜访日志的拆解咱们能够拿到如下结构化信息(见下图)。很多客户的理论业务场景也是相似的,在拜访日志中记录着客户的拜访行为,通过巡检以后业务的黄金指标,咱们能够很好的晓得目前服务中各个 API 接口的服务能力。
根据上述的构造,咱们定义以后的须要巡检的黄金指标:
某集群各服务接口每分钟胜利响应的次数
某集群各服务接口每分钟失败响应的次数
某集群各服务接口每分钟胜利均匀响应延时
某集群各服务接口每分钟失败均匀响应延时
-
| SELECT time – time % 60 AS time,
method, Count(*) AS total, Count_if(status=200) AS n_succ, Sum( CASE WHEN status=200 THEN latency ELSE 0 END) / (1 + Count_if(status=200)) AS avg_succ_latency, Sum( CASE WHEN status!=200 THEN latency ELSE 0 END) / (1 + Count_if(status!=200)) AS avg_fail_latency
FROM log
GROUP BY time,method limit 100000
当然,咱们还有另外一个模式的黄金指标,用来进行后续的监控,咱们能够仅关注申请失败的接口中的数量的变动,具体的 SQL 如下
not STATUS: 200 |SELECT time – time % 60 AS time,
method,
status,
Count(*) AS num
FROM log
GROUP BY time,
method,
status limit 100000
咱们【智能异样检测】App 中实现作业的配置。入口地址 https://sls.console.aliyun.co…
后果阐明
通过上述配置,咱们失去了一个【智能时序巡检】工作,咱们依据上面的后果,介绍下截图中各局部的含意:
【巡检实体数量】:当前任务中一共蕴含了多少个观测对象
【巡检指标数量】:当前任务中每个观测对象的观测维度
【实体信息列表】:当前任务中全副参加巡检的观测对象,且给每个对象提供一个惟一编码
【异样事件列表】:以后选中的实体,在给定的工夫窗口中,给定的过滤条件下的异样分数和异样类型
上述截图中的可视化信息均来自对应的 Project 上面的 LogStore【internal-ml-log】中,对于这个 logstore 中存储的数据的具体阐明,能够参考咱们的官网文档。https://help.aliyun.com/docum…
告警应用
您能够通过在【巡检工作】创立的最初一步中,配置多种音讯发送逻辑
钉钉 - 自定义
事件总线(EventBridge)
函数计算(FC)
通过 SDK/ 钉钉发送音讯
这外面的具体配置逻辑以及解释不在赘述,更多信息能够参考这个链接:https://developer.aliyun.com/… 外面较为具体的介绍了在告警中您能够应用那些字段进行后续的操作和判断。当巡检工作发现一个异样时,会将具体的信息依照如下的模版推送到钉钉的 webhook 地址。
函数计算(FC)
对于配置函数计算去进行后续操作的局部细节能够参考 https://help.aliyun.com/pract…
这里咱们简略的说在下一步的剖析思路:
参考资料
【智能异样剖析】https://help.aliyun.com/docum…
【后果字段阐明】https://help.aliyun.com/docum…
【智能巡检告警配置最佳实际】https://developer.aliyun.com/…
【AIOps:自适应机器学习异样检测】https://developer.aliyun.com/…
【告警对接函数计算实现主动响应】https://help.aliyun.com/pract…
原文链接:http://click.aliyun.com/m/100…
本文为阿里云原创内容,未经容许不得转载。