on-call 的意思是随时待命,on-call 轮值工作是 SRE, 运维,研发团队的重要职责,它的指标是保障服务的可靠性和可用性。on-call 通常解决的都是紧急事变,个别非紧急的工作一线的研发和运维即可解决。
在咱们安顿团队外部的 on-call 轮值工作时,须要留神以下几点:
1. 数量上放弃正当的均衡
如果公司要求做到 7 *24,那么尽量做到每人每月轮值一周。同时要为主 on-call 工程师配置一个正手,确保主 on-call 分割不上时有备份,或者客户问题溢出时,正手能够分担压力
2. 工作压力保持平衡
解决事变时不仅要解决现有问题,处理完毕还须要写事变报告和总结,十分耗时耗力,单日的生产环境报警故障解决总数尽量不超过 3 - 4 个,否则会造成运维压力过大,同时长期间执行夜间工作对人的身材不利,尽量避免夜间值班
3. 福利措施
on-call 值班把工作带入了生存,时刻都有潜在的工作压力,须要为 on-call 工程师提供额定的补贴,防止工程师对工作厌倦
4. 安全感
独自解决未知问题,面对愤恨的客户往往须要承当微小的心理压力,在解决紧急事变时,须要为 on-call 工程师提供资源,防止遇到问题慌手慌脚,最紧要的有如下几个:
- 清晰的问题降级路线
一旦超出 on-call 工程师的能力范畴,及时将问题降级 - 清晰定义的紧急事变解决步骤
有了参照样板,on-call 工程师解决起来会更顺畅 - 容纳,单干的文化氛围
在工作中只针对具体工作和问题,可能控制情绪,不指摘,甩锅别人