咱们先回顾一下 SRE 的定义:SRE 就是用软件工程的思维和方法论,通过设计、构建自动化工具实现以前由运维工程师手动操作的工作。所以,SRE 要把更多的工夫破费在长期我的项目研发上而非日常运维中的琐事。
一、什么是琐事
琐事就是运维服务中手动性的,重复性的,能够被自动化的,战术性的,没有长久价值的工作。而且,琐事与服务呈线性关系的增长。琐事具备以下特点:
手动性 :例如收到磁盘目录满告警,运维人员手动清理日志。
重复性 :如果某件事是第一次做,甚至第二次做,都不算琐事。琐事就是不停重复做的工作,如果你正在解决一个新呈现的问题或者寻求一种新的解决办法,不算琐事。清理磁盘目录不太可能是一次性的,因而咱们须要重复去解决它。
能够被自动化 :如果软件程序能够和运维人员一样可能很好地实现某个工作,或者通过某种设计变更来彻底消除运维人员手动、反复的解决某项工作。
战术性的 :琐事是忽然呈现的、应答式的工作,而非策略驱动和被动安顿的。比方解决日常告警,咱们可能永远无奈齐全打消这种类型的工作,但咱们必须持续致力缩小它。
没有长久价值 :如果在你实现某项工作之后,服务状态没有扭转,这项工作就很可能是琐事。如果这项工作会给服务带来永久性的改良,它就不是琐事。
与服务同步线性增长 :如果在工作中所波及的工作与服务的大小、流量或用户数量呈线性增长关系,那这项工作可能属于琐事。
二、为什么要缩小琐事
对运维团队来说,琐事不可避免 。运维不可避免地须要解决部署、降级、重启、告警解决等工作,这其中又蕴含很多下面所说的琐事,如果不加以控制,琐事会变得越来越多,以至于迅速占据咱们每个人 100% 的工夫!每日疲于奔命忙于救火,就无奈将更多的力量投入到扩充服务规模的工程工作下来,或者是进行下一代的服务的架构设计。
三、SRE 怎么缩小琐事
SRE 中的 E 是 Engineering。中文能够翻译为“工程工作”,SRE 就是通过工程工作来缩小琐事。
工程工作通常是有创新性和创造性的,着重通过设计来解决问题,解决方案越通用越好。例如,编写自动化脚本,发明工具或框架,减少可扩展性和可靠性的服务性能,或批改基础设施代码以使其更持重。工程工作有助于使该团队或是整个 SRE 组织在维持等同人员配备的状况下接手更大或者更多的服务。
本文由 mdnice 多平台公布