关于云原生:智能巡检告警配置最佳实践

简介：智能异样剖析的检测后果通过 SLS 告警性能输入到用户配置的告诉渠道。在智能巡检场景中，单个工作往往会巡检大量的实体对象，波及到的对象规定很多，咱们通过SLS新版告警能够实现较好的对于巡检事件的治理。

智能异样剖析的检测后果通过 SLS 告警性能输入到用户配置的告诉渠道。在智能巡检场景中，单个工作往往会巡检大量的实体对象，波及到的对象规定很多，咱们通过SLS新版告警能够实现较好的对于巡检事件的治理。

巡检事件根底构造

在这里，咱们先简略看下巡检工作的根本逻辑：

对于单个巡检作业而言，外部蕴含N个实体的巡检，每个巡检实体对应一个巡检模型，其中任意一个异样事件产生后，都会通过告警零碎告诉到用户，因而咱们须要有能力通过不同的形式将后果进行散发和治理。

咱们先看下巡检事件的根底构造，具体的内置模板如下所示：

## 数据源
+ Project: ${results[0].project}
+ LogStore: ${results[0].store}

##  异样对象
+ Entity: ${labels}

## 异样水平
+ Score: ${annotations.anomaly_score}

## 异样时序图
![image](${annotations.__plot_image__})

[[数据详情](${query_url})]
[[作业详情](${alert_url})]

[[确认](${annotations.__ensure_url__})]
[[误报](${annotations.__mismatch_url__})]

咱们一起来看下具体的告警音讯的样例，接下来咱们所有的形容都会依据对应的如下后果进行形容。

{
  "results": [
    {
      "store_type": "log",
      "region": "cn-chengdu",
      "project": "sls-ml-demo",
      "store": "machine_metric_logtail",
      "start_time": 1641361140,
      "end_time": 1641361200
    }
  ],
  "labels": {
    "ip": "192.168.1.5",
    "name": "load_avg"
  },
  "annotations": {
    "__ensure_url__": "$url_path",
    "__mismatch_url__": "$url_path",
    "__plot_image__": "$url_path",
    "alert_msg_type": "ml_anomaly_msg",
    "anomaly_score": "0.8000",
    "anomaly_type_id": "1",
    "anomaly_type_name": "STAB_TYPE",
    "job_id": "29030-2bbf5beba0110fa869339708a8217b67",
    "model_id": "9c0f0d5ad4879eb75237e2ec8494f5f1",
    "title": "metric-logtail-sql"
  },
  "severity": 8,
  "drill_down_url": "$url_path"
}

典型场景配置

场景一

指标：过滤特定实体的异样

操作步骤

寻找到某个巡检工作的【口头策略ID】，这里要依据用户本人的理论配置来确定，具体的门路如下：

在口头策略中，增加对应的条件

根据上述提供的告警字段而言，咱们假如目前只将【标签】中字段为【ip】且值为【192.168.1.5】的告警音讯发送到特定的【钉钉机器人】中

场景二

指标：过滤特定分数的异样

操作步骤

找到特定的【口头策略ID】，增加【条件】

配置【异样分数】超过【0.9】分数以上的告警到特定的渠道

【名称】- anomaly_score
【正则】- ^((1.0)|(0.9[0-9]))$

场景三

指标：过滤特定实体的特定分数的异样

操作步骤

找到特定的【口头策略ID】，增加【条件】

配置【特定实体】的【异样分数】超过【0.9】分数以上的告警到特定的渠道

【标注】的名称设置为 anomaly_score，【正则】- ^((1.0)|(0.9[0-9]))$
【标签】的名称设置为 ip，对应的实体内容是 192.168.1.5

场景四

指标：过滤特定异样类型的异样

操作步骤

找到特定的【口头策略ID】，增加【条件】
配置【特定异样状态】

配置【标注】anomaly_type_id，依据对应的值进行判断，具体的内容能够参考[异样类型阐明]
(https://help.aliyun.com/docum…)
这里只承受特定的【向上漂移类型的异样】anomaly_type_id = 7

场景五

指标：依据巡检事件和根因事件类型进行散发

操作步骤

找到特定的【口头策略ID】，增加【条件】

配置【智能告警的事件类型】

配置【标注】alert_msg_type，对应的值是 ml_anomaly_msg （这个字段示意的是智能巡检的告警）

原文链接
本文为阿里云原创内容，未经容许不得转载。

关于云原生:智能巡检告警配置最佳实践

巡检事件根底构造

典型场景配置

场景一

场景二

场景三

场景四

场景五

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于云原生:智能巡检告警配置最佳实践

巡检事件根底构造

典型场景配置

场景一

场景二

场景三

场景四

场景五

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复