关于运维:SRE体系10部署监控

监控零碎是撑持咱们运维工作的基石之一,它可能帮忙咱们剖析零碎的长期趋势,在产生故障时发送报警,甚至主动修复故障,同时也是咱们剖析零碎性能和问题的第一手资料,所以监控零碎的部署和优化是必不可少的。

监控准则

  1. 监控有分级。能够通过监控项一旦产生故障产生的影响来分级,不致命的监控告警尽量优化,不要占用SRE的on-call工作工夫。否则紧急告警太频繁会让SRE进入“狼来了”的状态,开始狐疑报警的有效性,以致于疏忽了真正危险的告警
  2. 监控要尽量简化。监控项及报警规定要容易了解,可能代表一个清晰的故障场景,监控模板要常更新,去除无用监控项
  3. 监控景象,景象是指产生了什么,例如cpu利用率100%,提早超过2s,探针返回404错误码等,实时抓取第一手数据,每个人对监控到的景象的了解是不一样的。如何剖析监控数据是另一个零碎的事,所以监控项尽量不要加本人的剖析逻辑

监控形式:

白盒监控:
依附业务零碎外部裸露的一些指标进行监控,如日志接口,java虚拟机监控接口,或业务零碎外部本人开发的http申请统计接口。白盒监控要求对业务零碎外部架构十分相熟,可能监控数据,预测趋势

黑盒监控:
通过测试某种内部用户可见的零碎行为进行监控。例如监控一个商城零碎,不须要理解零碎外部架构。只须要模仿内部用户的下单行为,发送一个HTTP申请给零碎,如果零碎返回的数据正确则认为零碎是失常的。

监控精度和阀值:

对于可用性较高的业务零碎须要设置更高的监控精度,例如cpu每分钟检测1次。但对于一些低可用性非重要零碎,监控频率能够调低到1小时1次。因为监控零碎自身会耗费服务器资源和存储资源,不合理的精度会导致服务器累赘减轻,影响本机运行的业务。

监控时大多数人偏向于监控平均值并设置阀值,但对于稳定比拟大的监控项是显著不适合的。 例如监控HTTP申请提早,950个申请提早是10ms,50个申请提早是10s。这显著是有问题的,如果依照平均值计算会认为提早失常从而疏忽这个问题。咱们能够通过高百分位或者直方图的形式来监控稳定率大的指标。例如90%的申请提早小于30ms,99.9%的申请提早小于60ms,以此来示意指标的散布状况

监控指标:

典型的有以下四类,残余的均是在此四类指标上的拓展

  1. 提早:服务解决某个申请须要的工夫
  2. 流量:QPS,网络i/o,磁盘i/o
  3. 谬误:申请失败的数量和速率
  4. 饱和度:服务容量的使用率,如CPU,内存,存储等使用率

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理