关于运维:玩转Zabbix智能告警降噪排班认领升级IM协同

2次阅读

共计 1839 个字符,预计需要花费 5 分钟才能阅读完成。

Zabbix 作为一款风行的企业级监控工具,能够监控各种网络设备和服务的状态,并提供弱小的告警性能,可能在出现异常状况时及时告诉管理员。以下是 Zabbix 的一些特点:

  • 反对多种监控形式,包含 SNMP、JMX、IPMI 等,能够监控各种网络设备、服务器、虚拟化平台等;
  • 提供了丰盛的监控项和模板,能够轻松地监控各种指标,如 CPU、内存、磁盘、网络等;
  • 提供了灵便的告警形式,能够通过邮件、短信、电话等形式告诉管理员,并且能够依据不同的告警级别设置不同的告诉形式。

只管 Zabbix 在监控和告警方面十分弱小,但在解决告警事件方面仍有不足之处

  • 不足告警降噪和克制风暴的能力;
  • 没有提供 oncall 值班调度的能力;
  • 没有提供 IM 工具内闭环解决告警的能力;
  • 告警协同解决能力单薄,没有数据积淀和剖析。

不仅仅是 Zabbix,很多告警零碎存在相似的问题,而 FlashDuty 正是为了解决这些问题而存在:

  • 提供丰盛的集成起源,反对接管 Zabbix 等告警事件,在一个平台解决公司内所有告警
  • 提供灵便的告警降噪、聚合、静默、克制、收敛能力,防止告警风暴,不错过任何敏感信息
  • 提供弱小的值班能力,反对各种排班场景,告警仅告诉对的人
  • 买通飞书、钉钉和企业微信,真正做到 在 IM 外部随时随地解决告警
  • 提供欠缺告警协同、故障协同能力,反对常识积淀和要害指标剖析

疾速接入 Zabbix 告警

FlashDuty 反对接入 Zabbix 3.x~6.x 所有版本的告警事件。不同版本接入形式略有不同:

  • 3.x~4.x 版本:反对 Script 形式接入
  • 5.x~6.x 版本:反对 Webhook 形式以及脚本形式接入

Webhook 接入形式(3 步,详情参照文档,本文仅简述):

  1. 下载并导入 FlashDuty 定制的 Media Type,配置好 URL 等信息
  2. 关联 FlashDuty Media Type 到一个 User
  3. 创立 Action,配置触发、复原与更新 Operations 通过 FlashDuty Media Type 发送信息到 User

Script 接入形式(4 步,详情参照文档,本文仅简述):

  1. 创立 Script 类型的 Media Type,配置好 Parameters
  2. 登录 Zabbix server 所在服务器,切换到脚本目录,下载并导入 FlashDuty 定制的推送脚本
  3. 关联 FlashDuty Media Type 到一个 User
  4. 创立 Action,配置触发、复原与更新 Operations 通过 FlashDuty Media Type 发送信息到 User。留神批改 Default Message 配置,FlashDuty 将解析 Message 中加密的信息,来取得更丰盛的告警详情

Zabbix 告警详情

  1. FlashDuty 提取 Zabbix 告警详情中的局部信息作为标签

2. 多条相干的原始告警信息将被合并到一条告警中,能够在 关联事件 中回溯

设定灵便的触达策略

FlashDuty 告诉策略非常灵活,能够针对不同场景设定不同的告诉策略:

  1. 反对依照 工夫 条件 来过滤事件,并发送到不同的人群;
  2. 反对设置 聚合发送 窗口,如果在期待期内告警主动复原或被人工解决,则不会发送该条告警;
  3. 反对单聊群聊告诉形式,以及多样的告诉渠道。举荐以 IM 形式进行告诉;
  4. 反对告警在不同人群中降级;
  1. 反对自定义告诉模板渲染(Golang 模板语法及上百种罕用函数),配合预览调试能力;
  1. 反对告警静默、告警克制,提前设定策略,缩小不必要的告警告诉。

设置专属值班日历

反对日常值班、节假日值班、长期调班等值班场景,反对自定义值班角色等高级选项,可灵便扩大。

自定义值班角色为高级性能,须要分割咱们开明

在 IM 内外解决告警

全面买通飞书、钉钉和企业微信,反对在聊天页面间接解决告警,操作状态将在多端同步,真正做到随时随地解决告警

  1. 首次登录即实现账户关联,后续免登录
  2. 提供要害性能按钮,能够间接在卡片音讯上操作
  3. 解决进度实时同步卡片,全员可见

以下别离为在 飞书、钉钉和企业微信 iOS 客户端 内解决告警过程:

查看告警治理趋势剖析

反对统计要害的告警治理指标:

  1. 反对告警、故障的 MTTx 指标按多维度统计;
  2. 反对告警、故障等数量统计;
  3. 反对 TopK 告警策略和告警对象发现。

最初

总的来说,FlashDuty 能够补救 Zabbix 等监控零碎在告警降噪、值班调度、告警协同解决等方面的有余。它反对多种告警起源,灵便的告警降噪和静默性能,弱小的值班能力,以及欠缺的告警协同、故障解决、趋势剖析能力。

如果您正在寻找一款更好的告警解决零碎,那么 FlashDuty 值得一试。当初点击链接实现注册,主动取得 专业版 14 天试用机会

正文完
 0