关于结构化数据存储:稳定性之故障应急处理流程

简介：只管能够通过稳定性体系建设，来避免出现生产系统故障。然而依然无奈彻底防止一点危险都不会产生，当稳定性危险产生后，怎么疾速协调组织，缩短故障时长，迷信的流程呢？

作者 | 金喜
起源 | 阿里技术公众号

只管咱们能够通过稳定性体系建设，来避免出现生产系统故障。然而依然无奈彻底防止一点危险都不会产生，当稳定性危险产生后，怎么疾速协调组织，缩短故障时长，迷信的流程就十分重要了。

好在咱们当初就开始思考的话，咱们还有短缺的工夫去设计各个环节，并让参加的同学充沛的锤炼，从而做到训练有素，为故障复原争取贵重的工夫。

对于问题解决有很多结构化解决办法，尤其是各种业余的征询公司，这些流程值得咱们借鉴。联合软件系统的生产环境故障来形容的话，一个典型的结构化问题解决步骤如下：

问题定义：清晰的形容问题景象、影响，其中影响要尽量量化。例如 xx 时 xx 分开始，xx 服务异样，成功率从 99% 上涨到 90%。
长期解决：基于预案的长期解决方案和施行后果，包含符合条件的预案执行，或者利用公布过程中呈现的异样后立刻回滚。
剖析问题起因：联合已知因素，找到问题的根本原因。
制订解决方案。
施行解决方案。
标准化解决方案：将解决方案标准化，触类旁通，防止同类问题持续产生。

生产环境中，呈现突发异样时候，咱们第一优先的是思考怎么疾速复原服务，因而本文中重点介绍下面流程中后面 2 个步骤。

另外，问题解决里，沟通是贯通在整个流程里的。须要在各个环节都做好充沛的沟通。

突发异样的状况都各有不同，很难有一个齐全对立而且颗粒度很细的规范流程，然而能够提前约定好几个要害角色，定义角色的作用和要害动作，来晋升合作效率。

次要包含这些角色：

指挥员：负责组织和协调故障疾速复原、故障群里通报相干停顿。
通讯员：负责收集、记录要害信息，并在故障群等渠道跟相干团队沟通。
快恢负责人：依据故障景象、监控大盘，决策并执行预案。
问题诊断负责人：定位故障根本原因，当快恢不起作用的话，该角色至关重要。

以下是各个角色的详细描述。

1 指挥员

指挥员的抉择

第一接警人：默认第一个收到告警、投诉反馈的技术人员作为指挥员。第一接警人判断是否可能指挥，或者是否有本人相熟且充沛演练的预案可用，如果能够则立刻复原服务，否则分割专职指挥员接手。在专职指挥员接手之前，第一接警人就是默认的指挥员。
专职指挥员：团队 Leader 和稳定性负责人是大多数危险的最佳指挥员，当应急团队建立联系后，指挥员能够交由 TL 或团队内的稳定性负责人。
各级 TL：当故障时长和等级持续上升后，依据理论状况会回升，由更高层级 TL 接掌指挥员角色，以协调更多资源退出。

指挥员要害动作

确认问题：确定该次突发事件的景象、影响。
确定角色：确定参加该次事件处理的要害角色，包含通讯员、快恢负责人、问题诊断负责人。
向上沟通：让组织中要害角色通晓该问题，这样在须要时候，能够更快的调动更多人员和资源参加进来。
协调：帮助快恢负责人和问题诊断负责人解决问题，在信息、领域专家等资源上给予声援。

对指挥员的要求

启动：确定人员，并通过视频会议、故障群等形式建设起应急小组。
后期：紧盯快恢负责人停顿，优先落地快恢，而不是剖析根本原因。当快恢不失效后，也要持续摸索可能的快恢伎俩，例如回滚近期的变更等操作。过往的故障时长没有满足 1 -5-10 的案例中，大多数状况下都是指挥员在剖析问题根本原因，错失了快恢的最佳时机。
中期：尝试大量伎俩都无奈复原服务的话，重心逐步转移到问题诊断负责人这里，找到根本原因。通常进入到这个阶段故障还没复原的话，就是大故障了，1-5-10 基本上是无奈达标的。
前期：组织团队持续察看，确认不会问题再复现。组织善后和复盘等工作。

2 通讯员

如果故障不能在第一工夫通过预案复原的话，通讯员将会是仅次于指挥员的角色。高效组织信息收集、整顿，会让整个应急小组更快速度找到解计划。

通讯员抉择

专职通讯员：在团队内有肯定稳定性认知，而后通常又不是快恢负责人和问题诊断负责人第一人选的那个同学。
其余不参加问题诊断和快恢的团队成员。

通讯员要害动作

继续确认问题和通报：随着时间推移，问题的景象、影响面也在动态变化，须要定期通报（故障群、电话会议等渠道），后期要做到 5 分钟换一次通报，随着时间推移，前期能够改成 15 分钟、30 分钟等距离。
信息收集：依照规范模版，为该问题建设一个对立的文档，把文档链接放到群布告、故障群中。并继续将收集的要害信息更新进去。不便后续退出到应急小组的同学疾速理解上下文。
收集舆情：这一点跟信息收集有重叠，之所以特别强调进去，是因为该环节通常容易被疏忽，技术同学容易陷入在技术指标中，对于舆情不足关注。
对外发声：分割客服负责人，与客服团队单干，安抚客户。

对通讯员要害要求

后期要快：疾速收集要害信息，黄金 10 分钟内要做到每分钟有信息更新，并继续通报。
通报及时：好的信息通报是告知下次通报工夫，例如 xx 问题 yy 正在解决中，目前状况是 zzz，xx 分钟后将进行下一次通报。如果有牢靠和及时的通报，关注该问题的人只需继续注意信息通报即可，防止非专业的插手影响应急小组快速反应。
分割内部声援：波及到内部依赖方的时候，例如 OSS、MySQL 等，通过指挥员、利用 Owner 等渠道通晓内部接口人的时候，及时组织内部接口人退出到应急小组中来，并向对方通报问题上下文。

3 快恢负责人

咱们的冀望是所有的危险都可能通过快恢来解决，如果不能的话，也是第一工夫探讨其余可行的快恢计划（比方回滚等操作）。

快恢负责人抉择

利用 Owner/ 外围骨干。
执行过该利用预案的团队成员：咱们激励团队之间穿插执行预案，当利用 Owner 分割不上的时候，其他同学也能够通过预案来帮助问题复原。

快恢负责人要害动作

执行快恢预案：依据问题景象，找到预案大盘，依据大盘上监控指标指引去执行相应的预案。
制订其余候选复原计划：当已知快恢预案不失效时候，剖析可能的变更等因素，通过回滚等办法尝试复原。必要时候，让指挥员协调更多人进来反对。

快恢负责人要害要求

以复原服务为第一优先级，问题根因剖析请交给问题诊断负责人。
既定预案不能快恢，也要持续摸索其余可能的复原伎俩。

4 问题诊断负责人

通常咱们不心愿这个人呈现在故障 1 -5-10 的复原环节，然而当快恢生效并且短时间内不足无效伎俩复原服务的话，最初只能靠问题诊断负责人来找到根本原因，并制订解决方案。

问题诊断负责人抉择

利用 Owner/ 骨干：理解相干代码的人最适宜去做问题诊断。
领域专家：比方网络问题，能够从团体找到该领域专家帮助参加进来。

问题诊断人要害要求

依据收集的信息，找到问题根本原因。
向指挥员、通讯员提出要求，把内部声援邀请退出到应急小组中。

故障应急响应是维持零碎高可用的最初一个机会，这个环节的不业余体现，对于稳固来说是最初彻底的失守。因而，跟预案演练一样，故障应急也须要重点锤炼。一些能够锤炼的机会包含：

实在的故障场景。
红蓝反抗演习：与 SRE 联动，通过突袭形式，模仿一次故障。
惯例报警降级：TL 或者稳定性负责人随机抽取一个短信告警，人为将其降级为故障，进入故障应急响应流程。

原文链接
本文为阿里云原创内容，未经容许不得转载。

关于结构化数据存储:稳定性之故障应急处理流程

一概述

二结构化问题解决

三要害角色

四最初

一 概述

二 结构化问题解决

三 要害角色

四 最初

一概述

二结构化问题解决

三要害角色

四最初