乐趣区

关于postcss:SRE技术保障平台盯屏中心TAC-混合云一站式告警运维平台

简介:SRE 技术保障平台 - 盯屏核心 TAC:混合云一站式告警运维平台

1. 指标定位

1.1 背景

  • 告警管控平台品种繁多
  • 告警呈现后未及时发现解决最终导致故障产生
  • 专有云监控能力拉起依赖版本升级,操作简单,迭代慢
  • 异样问题和故障的感知力不如客户

1.2 指标

  • 制订告警数据接入标准
  • 实现告警对立集中展现
  • 建设多种告警外发告诉
  • 独立部署、疾速迭代
  • 告警重大水平辨别,晋升感知力

1.3 定位

图 1:TAC 定位

2. 平台简介

2.1 介绍

SRE 技术保障平台 - 盯屏核心(TAC-TAM Alarm Center)是 TAM 为混合云精心打造的一站式告警运维平台,笼罩混合云所波及的云产品、大数据、云实例以及用户所波及的站点利用等告警,提供告警生命周期治理以及报警外发等解决方案。帮忙混合云平台疾速发现、定位异样问题,帮助产品团队促成产品改良。

2.2 特点

2.2.1 告警汇聚

  • 默认集成:云平台、大数据、云实例、站点利用
  • 反对扩大:自定义监控

2.2.2 报警通道

  • 钉钉 & 本地化钉钉
  • 短信服务
  • 企业邮箱
  • 警务微信

2.3 业务服务流程

图 2:TAC 业务服务流程图

3. 次要性能及界面展现

3.1 告警盯屏核心

  • 实时展现云平台以后所有的告警数据以及列出近 7 天的产品告警 TOP 排行, 高深莫测告警数据, 晋升感知力。

图 3:告警盯屏核心界面展现

3.2SRE 运维大盘

  • 通过指标化,更不便查看产品的健康状况,判断是否有故障;
  • 指标项蕴含:衰弱率、成功率、转实例、准时率、正常率、运行率、使用率、写成功率、读成功率。

图 4:SRE 运维大盘界面展现

3.3 告警工作台

  • 用户能够在平台告警页面上认领新增的待处理告警,线下解决实现后能够在我的告警页面上敞开该告警。
  • 当认领了本人不善于解决的产品告警,能够通过线上转发的形式移交给善于解决的同学。
  • 若呈现长期无奈解决的告警,在确认无影响的状况下能够抉择疏忽该告警,防止始终外发造成音讯轰炸。
  • 主动复原的告警无需手动认领敞开,在历史告警中能够进行查看。

图 5:告警工作台界面展现

3.4 事件服务中心

突破签字、短信、邮件式古老的运维治理形式,为客户将泛滥的线下流程移⾄线上,预设相应的管理体系,以线上提交、线上反馈的模式,能够对立治理、追踪闭环、数据存档,为⽇常流程管理工作提供更多解决⽅法,逐渐代替线下治理。

图 6:事件服务中心界面展现

3.5 告警控制策略

  • 反对设置主动分派策略,当指定产品呈现告警主动认领告警;
  • 当天首次呈现的告警立刻告诉,非首次呈现的告警遵循 1440 分钟的静默期后告诉;
  • 反对管制告警发送时的状态,“产生时”、“认领时”、“敞开时”;
  • 反对预约在指定的工夫范畴内使某一类型的告警进入静默期,告警外发临时生效;
  • 反对对告警推送的告警类型,产品,级别,部门,我的项目等进行自定义配置。

图 7:告警控制策略界面展现

3.6 告警推送策略

  • 提供用户体系,零碎会辨认用户的手机号码以及邮箱地址来发送告警;
  • 提供钉钉、短信、邮件的外发的 webhook,api 接口的配置;
  • 能够抉择的一个或多个告警策略自定义配置推送告警

图 8:告警推送策略界面展现

3.7 监控网关

  • 反对在监控工作页面配置用户关怀的网站、机器或某个接口,TAC 依据规定进行监控;
  • 若现场之前有提供过黑屏化的监控工具,用户能够在注册 API 页面注册一个 APP,依据接口调用标准将监控后果上报至 TAC 以第三方告警来展现和外发。

图 9:监控网关界面展现

3.8 钉钉告诉

图 10:钉钉告诉成果展现

4. 结语

目前,混合云少数我的项目已通过 TAC 实现告警告诉性能。无效进步告警解决效率,缩小因告警未及时处理导致故障的状况,大幅提高我的项目运维品质,缩小我的项目人力投入老本。

作者:黄家亮  阿里云智能 GTS-SRE 团队资深技术支持工程师
原文链接
本文为阿里云原创内容,未经容许不得转载

退出移动版