简介:SRE 技术保障平台 - 盯屏核心 TAC:混合云一站式告警运维平台
1. 指标定位
1.1 背景
- 告警管控平台品种繁多
- 告警呈现后未及时发现解决最终导致故障产生
- 专有云监控能力拉起依赖版本升级,操作简单,迭代慢
- 异样问题和故障的感知力不如客户
1.2 指标
- 制订告警数据接入标准
- 实现告警对立集中展现
- 建设多种告警外发告诉
- 独立部署、疾速迭代
- 告警重大水平辨别,晋升感知力
1.3 定位
图 1:TAC 定位
2. 平台简介
2.1 介绍
SRE 技术保障平台 - 盯屏核心(TAC-TAM Alarm Center)是 TAM 为混合云精心打造的一站式告警运维平台,笼罩混合云所波及的云产品、大数据、云实例以及用户所波及的站点利用等告警,提供告警生命周期治理以及报警外发等解决方案。帮忙混合云平台疾速发现、定位异样问题,帮助产品团队促成产品改良。
2.2 特点
2.2.1 告警汇聚
- 默认集成:云平台、大数据、云实例、站点利用
- 反对扩大:自定义监控
2.2.2 报警通道
- 钉钉 & 本地化钉钉
- 短信服务
- 企业邮箱
- 警务微信
2.3 业务服务流程
图 2:TAC 业务服务流程图
3. 次要性能及界面展现
3.1 告警盯屏核心
- 实时展现云平台以后所有的告警数据以及列出近 7 天的产品告警 TOP 排行, 高深莫测告警数据, 晋升感知力。
图 3:告警盯屏核心界面展现
3.2SRE 运维大盘
- 通过指标化,更不便查看产品的健康状况,判断是否有故障;
- 指标项蕴含:衰弱率、成功率、转实例、准时率、正常率、运行率、使用率、写成功率、读成功率。
图 4:SRE 运维大盘界面展现
3.3 告警工作台
- 用户能够在平台告警页面上认领新增的待处理告警,线下解决实现后能够在我的告警页面上敞开该告警。
- 当认领了本人不善于解决的产品告警,能够通过线上转发的形式移交给善于解决的同学。
- 若呈现长期无奈解决的告警,在确认无影响的状况下能够抉择疏忽该告警,防止始终外发造成音讯轰炸。
- 主动复原的告警无需手动认领敞开,在历史告警中能够进行查看。
图 5:告警工作台界面展现
3.4 事件服务中心
突破签字、短信、邮件式古老的运维治理形式,为客户将泛滥的线下流程移⾄线上,预设相应的管理体系,以线上提交、线上反馈的模式,能够对立治理、追踪闭环、数据存档,为⽇常流程管理工作提供更多解决⽅法,逐渐代替线下治理。
图 6:事件服务中心界面展现
3.5 告警控制策略
- 反对设置主动分派策略,当指定产品呈现告警主动认领告警;
- 当天首次呈现的告警立刻告诉,非首次呈现的告警遵循 1440 分钟的静默期后告诉;
- 反对管制告警发送时的状态,“产生时”、“认领时”、“敞开时”;
- 反对预约在指定的工夫范畴内使某一类型的告警进入静默期,告警外发临时生效;
- 反对对告警推送的告警类型,产品,级别,部门,我的项目等进行自定义配置。
图 7:告警控制策略界面展现
3.6 告警推送策略
- 提供用户体系,零碎会辨认用户的手机号码以及邮箱地址来发送告警;
- 提供钉钉、短信、邮件的外发的 webhook,api 接口的配置;
- 能够抉择的一个或多个告警策略自定义配置推送告警
图 8:告警推送策略界面展现
3.7 监控网关
- 反对在监控工作页面配置用户关怀的网站、机器或某个接口,TAC 依据规定进行监控;
- 若现场之前有提供过黑屏化的监控工具,用户能够在注册 API 页面注册一个 APP,依据接口调用标准将监控后果上报至 TAC 以第三方告警来展现和外发。
图 9:监控网关界面展现
3.8 钉钉告诉
图 10:钉钉告诉成果展现
4. 结语
目前,混合云少数我的项目已通过 TAC 实现告警告诉性能。无效进步告警解决效率,缩小因告警未及时处理导致故障的状况,大幅提高我的项目运维品质,缩小我的项目人力投入老本。
作者:黄家亮 阿里云智能 GTS-SRE 团队资深技术支持工程师
原文链接
本文为阿里云原创内容,未经容许不得转载