关于saas:史上增长最快的SaaS公司Slack的混沌工程实践-IDCF

堪称史上增长最快的SaaS产品: Slack。这是一家特地神奇的SaaS公司，号称在没有销售团队和营销估算的状况下，成立3年营收增长10倍，一度被誉为“历史上增长最快的SaaS公司”。明天，咱们来看看他们的混沌工程实际。

引子

在过来的五年中，Slack的日活用户数超过了1000万，疾速的迭代和重大的架构调整撑持了Slack更多的性能。目前，Slack服务曾经变成了一个硕大无朋。对于这个硕大无朋的测试，咱们遵循假如验证的迷信办法和流程。

每当启用新的性能或对其进行批改时，咱们都会测试新代码的容错能力。可怜的是，只管服务依赖的环境在发生变化，咱们也很少反复这些测试。

最后，咱们对要害零碎的韧性和可靠性充满信心，但随着工夫的推移，这些最后的测试后果就会生效，这种信念就没有充沛的根据了。

靠运气？不！咱们必须有所扭转。

当然，如果这是一个从0到1的新产品，咱们一开始就会实际混沌工程。毕竟，测试故障门路的最佳办法就是永远不要失常敞开服务。

然而，咱们并不是从零开始，咱们经营着对业务至关重要且规模宏大的服务，咱们当初最须要的是什么呢？

Slack服务放弃尽可能的健壮性：

开发环境成为一个对容错测试更有信念的中央；
测试所有零碎（不仅仅是新零碎）；
不能造成影响用户的事件，所做的测试都必须平安；
不要虚伪的信念，所做的所有都须要在生产中进行。

在2018年1月，咱们启动了一个严格的流程：

辨认可能产生的故障；
确保服务可能容忍这些故障；
成心在生产中引入这些故障。

这还不是Netflix实际和宣传的混沌工程。这是混沌工程的第一步，咱们称之为劫难剧院。

演练筹备

每次劫难剧院的演练过程都旨在最大水平地学习，同时最大水平地降低生产事变的危险。每次演练都在一个确定且告诉到位的工夫和地点进行，所有相干的专家都在同一房间或同一视频会议中。

这一阶段，咱们尚未试图在这些演练中测试监控的局部。在演练之前，主持者们要编写一份具体的打算并宽泛分享收集反馈，因为该打算对演练的安全性至关重要。

不过这份打算外面更多是演练的内容，不会提供服务的容错原理。

主持者们负责分享他们的电脑桌面，讲出整个打算背地的思考逻辑。同时，还要精密地记录如何引发故障，将要运行的命令，以及如何抉择波及的EC2实例（咱们将其称为“贡品”）。

咱们还要求主持者持续记录，用开发环境的容错情况去预测生产中的容错能力，他们有多少信念。此外还包含须要监控的所有日志、指标和告警，以及在此演练过程中须要的运行手册。

最重要的是，他们须要在打算中，提出一个具体的假如，用来形容上下游零碎以及Slack客户端经验故障的过程。

例如，“MySQL主服务器的终止，将导致依赖于该数据库的申请，提早减少20秒，而其它申请的提早不会减少，失败的API申请数少于1000个，所有这些都是因为客户端重试造成的。”

劫难来袭

在开始演练之前，咱们会审核演练打算，将Grafana中定义好的仪表板和Kibana中预置的实时搜寻后果，投到幕布上或分享进去。当初咱们筹备注入故障。

咱们先在Slack领有700多人的运维频道，发表了这项演练的开始。

在演练过程中，咱们不会进行部署或其余任何失常流动，但会让相干的人提前通晓咱们的演练打算。

在整个演练过程中，咱们会在运维频道中提供一些粗略的状态更新，而在劫难剧场的频道中提供每一步的后果。

演练总是先在开发环境中注入故障。

之后，咱们查看日志和指标，以确认故障以咱们冀望的形式体现进去。碰到问题想要修复是一种常见的本能，但在这里咱们必须管制本人，作为旁观者，监视系统的自行保护。

咱们通过应用负载平衡和流量治理的形式进行故障转移或更换容量。极少的状况，咱们会依照运行手册来复原服务。

在开发环境中注入故障后，咱们会暂停，决定是否在生产上进行同样的操作。很多时候，咱们都感觉，如果不在生产上进行，这个演练就是失败的或者节约大家的工夫。

但实际上，往往最有价值的一些经验教训反倒是来自开发环境。

如果零碎的主动补救措施不起作用，或者不能按预期奏效，亦或者破费的工夫太长，更重要的是，如果故障会导致更多的毁坏，而不是客户端提早短暂且轻微的减少，咱们会认真思考停止。
如果咱们决定终止，就会在运维频道中发表。

侥幸的是，咱们对开发环境的后果感到称心，筹备在生产环境中注入故障。咱们把Grafana中定义好的仪表板和Kibana中预置的实时搜寻，投到幕布上或分享进去，并在运维频道中发表咱们行将在生产注入故障。

最初的时刻到了，在生产中注入故障，和咱们在开发环境中所做的一样，咱们查看日志和指标，以验证咱们的假如。同时，咱们也为零碎预留了主动修复所需的工夫。

另外，这个实践上令人恐怖的时刻，实际上是相当平静的。所有的所有实现后，咱们在运维频道中发表故障全副革除。

而后，咱们开始总结和继续跟进:

找到问题本源和解决问题的工夫点；
是否有用户曾经留神到这个问题；
是否须要人工干预这个问题；
这个问题的重大水平；
演练打算的文档是否有过错；
Grafana中的仪表板是否已过期。

演练后果

咱们在Slack进行了数十次劫难剧院的演练。其中大多数能按计划进行，加强了咱们对现有零碎的信念，并验证了新性能的容错能力。当然，有些时候咱们还是会发现Slack可用性的重大问题，并在影响客户之前找到提前修复的机会。

以下是三个特地胜利的演练：

1、防止缓存不统一

第一次的劫难剧院演练，咱们把注意力投向了memcached，用于证实在生产中主动实例替换能失常工作。

这个演练很简略，抉择将memcached的实例断开网络连接，察看备用实例是否能失常替换。最初，咱们复原了网络连接并终止了备用实例。

演练打算审核时，咱们发现了实例替换算法中的一个破绽，并很快在开发环境确认了它的存在。
依据最后的设计，如果实例在一组缓存键上失落了租约，而后又取得雷同的租约，则该实例不会刷新其缓存项。然而，在这种状况下，备用实例在此期间已应用了该组缓存键，这意味着原始实例中的数据已过期而且可能不精确了。

在演练中，咱们通过选定适当时间段手动刷新缓存，在演练实现后立刻更改算法，并再次进行测试来解决此问题。

没有演练发现的这个问题，咱们很可能不会觉察缓存损坏的问题。

2、为了平安重复尝试

在2019年初，咱们打算进行十次演练，用来证实Slack对AWS中的区域故障和网络分区的容错能力。其中一个演练波及信道服务器(Channel Server)，负责将新发送的音讯和元数据，播送到所有关联Slack客户端的WebSocket中。

这次演练的指标是将25％的信道服务器受到网络分区的故障，并察看是否能检测到对应的故障点，零碎是否主动会将原实例替换为备用实例。

创立网络分区故障的第一次尝试失败了，问题出在提供通明传输加密的overlay网络。实际上，咱们对信道服务器的隔离远超出了预期，与网络分区相比，这是断开网络连接。咱们提前停下使信道服务器重新加入集群，复原网络故障。

第二次尝试好了很多，但在投入生产前就完结了。但这次演练提供了踊跃的后果，咱们发现Consul适宜管理网络分区上的路由。这个后果给了咱们更多的信息，但还是完结了这次演练，因为尽管做了很多工作，最终还是没有产生任何信道服务器的故障。

第三次也是最初一次尝试，咱们应用了残缺的iptables规定库，并胜利地将网络分区故障注入到25％的信道服务器。Consul迅速检测到故障，并立刻采取代替口头。最重要的是，这种大规模主动重新配置的工作，给Slack API带来的负荷齐全在该零碎的能力范畴内。

漫漫长路的止境，最初都是踊跃的成绩！

3、看似不可能的后果

演练也会有负面的后果。事件响应，通常波及应用自研零碎Confabulator进行配置更改。
在一次特地重大的事件中，Confabulator未能按预期运行，因而咱们不得不手动进行配置更改的部署。

因而，咱们认为这个事件值得进一步考察。系统维护人员和咱们打算进行一次演练，间接模拟咱们之前遇到的情况，这将会导致Confabulator的网络分区，其余的零碎都运行失常，咱们也不会尝试手动更改配置。

重现了这个问题很容易，而后咱们开始跟踪代码，很快就发现了问题。该零碎的作者发现问题出在Slack自身宕机的状况下。

当提交的配置更改无奈验证进而无奈部署时，零碎就会利用一种紧急模式，间接跳过了验证过程。然而，在失常模式和紧急模式中，零碎都会试图将配置更改的告诉公布到Slack通道。该操作恰好没有设置超时，只管配置API是有超时的。

因而，即便在紧急模式下，如果Slack自身处于敞开状态，该申请也永远无奈进行配置更改的部署。

这个演练之后，咱们对代码和配置部署进行了很多的改良，并审核了这些要害零碎中的超时和重试策略。

将来瞻望

劫难剧院演练，已对Slack要害零碎的容错能力进行了定期且平安的验证，帮忙咱们理解和进步了Slack服务的可靠性。

在咱们拓展和迭代产品时，这是博得并放弃客户信任度的最重要因素之一。

下面提到的三个演练，加强了Slack服务的健壮性，并建设或纠正了咱们对系统容错能力的信念。

咱们的韧性工程团队会始终一直地拓展和迭代这个过程。当然，咱们打算进行更多的劫难剧院演练。

起源：混沌工程实际首发：slack.engineering

作者：Richard Crowley 译者：龙坞道长

题目：Disasterpiece Theater: Slack’s process for approachable Chaos Engineering

申明：文章取得作者受权在IDCF社区公众号（devopshub）转发。优质内容共享给思否平台的技术伙伴，如原作者有其余思考请分割小编删除，致谢。

6月每周四晚8点，【冬哥有话说】”玩转”系列。公众号留言“玩转”可获取地址

0603 无敌哥《IDCF人才成长地图与5P》（《端到端DevOps继续交付(5P)精品课》第1课）
0610 冬哥《带你玩转翻新设计思维》
0617 无敌哥《麻利项目管理到底是个啥》
0624 冬哥《VUCA时代的麻利领导力》

关于saas:史上增长最快的SaaS公司Slack的混沌工程实践-IDCF

引子

演练筹备

劫难来袭

演练后果

1、防止缓存不统一

2、为了平安重复尝试

3、看似不可能的后果

将来瞻望

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于saas:史上增长最快的SaaS公司Slack的混沌工程实践-IDCF

引 子

演练筹备

劫难来袭

演练后果

1、防止缓存不统一

2、为了平安重复尝试

3、看似不可能的后果

将来瞻望

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

引子

发表回复取消回复