关于运维:一分钟完成ECS机器数据的智能巡检告警

工具与资源核心
帮忙开发者更加高效的工作，提供围绕开发者全生命周期的工具与资源
https://developer.aliyun.com/…

简介：

对于运维的日常工作来说，服务器监控是必须且最根底的一项内容。在企业基础设施运维过程中，管理员必须可能把握所有服务器的运行状况，以便及时发现问题，尽可能减少故障的产生。本次次要介绍如何应用智能巡检，帮忙您疾速实现机器（ECS）相干指标的监控，升高您设置告警的简单规定和冗余的设置。

系列文章

• 一分钟实现拜访数据的智能巡检告警
对于运维的日常工作来说，服务器监控是必须且最根底的一项内容。在企业基础设施运维过程中，管理员必须可能把握所有服务器的运行状况，以便及时发现问题，尽可能减少故障的产生。本次次要介绍如何应用智能巡检，帮忙您疾速实现机器（ECS）相干指标的监控，升高您设置告警的简单规定和冗余的设置。

设置步骤

创立MetricStore，实现机器组配置

• 创立MetricStore

• 抉择须要监控的机器，装置Logtail采集插件

• 期待插件装置实现

• 针对配置的机器，将实现采集的机器组

设置针对机器指标的采集配置

SLS的主机监控计划非常简单，只须要装置一个Logtail就能够采集各个主机的根底指标，服务端都是云化，无需运维，默认SLS提供了可视化的仪表盘，也能够通过Grafana来进行更加业余的可视化。

目前Logtail采集了主机罕用的根底指标，包含CPU、内存、网络、磁盘等，其中对较为要害的指标都做了可视化，便于间接查看。通过对采集配置中（插件配置）的模式下，应用如下配置，能够实现上述指标的采集。
{
“inputs”: [

{
  "detail": {
  "IntervalMs": 30000
  },
  "type": "metric_system_v2"
}

]
}
在接入的过程中，有个辅助的开关【开启指标巡检】，如果抉择了开启，则会同时创立对应的【巡检工作】和寄存巡检后果的LogStore。咱们通过如下操作，能够查看对应的资源状况。

后果剖析

根底数据分析

| select DISTINCT name from “machine_metric_logtail.prom” where name != ” limit 10000
在MetricStore中，应用如上的剖析语句，能够查看咱们一共采集了多少指标，以及对应的指标内容。

智能巡检后果可视化

如何应用巡检大盘

• 用户能够在【巡检大盘】中抉择【异样列表】中对应【hostname】这一列，抉择从机器维度登程，去查看对应的异常情况
• 在【异样显示】局部，每个异样都会标注在指标的曲线中，您可通过鼠标拖拽抉择工夫区间，点击异样点查看异样详情并跳转到具体的监控页面

用户能够在【仪表盘】中，找到对应的【巡检仪表盘】，能够通过手动拖拽的模式选中对应的区间，能够实现多个图表联动的可视化，更加便于您查看单个机器的状态是否失常。

关于运维:一分钟完成ECS机器数据的智能巡检告警

系列文章

设置步骤

创立MetricStore，实现机器组配置

设置针对机器指标的采集配置

后果剖析

根底数据分析

智能巡检后果可视化

如何应用巡检大盘

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于运维:一分钟完成ECS机器数据的智能巡检告警

系列文章

设置步骤

创立MetricStore，实现机器组配置

设置针对机器指标的采集配置

后果剖析

根底数据分析

智能巡检后果可视化

如何应用巡检大盘

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复