关于数据库:2021年10月4日Facebook史上最严重宕机复盘分析

38次阅读

共计 2085 个字符,预计需要花费 6 分钟才能阅读完成。

1、相干新闻

据 BBC 等媒体报道,UTC 工夫 2021 年 10 月 4 日 15 时 39 分(即北京工夫 10 月 4 日 23 时 39 分),社交网络 Facebook 及其子公司 Messenger、Instagram 和 WhatsApp 寰球无奈应用长达 7 个小时。

Facebook 在其 twitter 中发表官网申明“Our engineering teams have learned that configuration changes on the backbone routers that coordinate network traffic between our data centers caused issues that interrupted this communication. This disruption to network traffic had a cascading effect on the way our data centers communicate, bringing our services to a halt”(翻译:调度数据中心之间流量的骨干网路由器配置变动造成了这次通信中断。这种网络流量中断对数据中心的通信产生了连锁效应,最终导致咱们服务宕机。)

能够看出官网的回答并没有很分明地阐明谬误起因。因而咱们复盘给出宕机事变的根本原因。

2、Downdetector 监测到 Facebook 网络稳定

图 1 Downdetector 监测到 Facebook 网络稳定

Downdetector 网站通过收集社交网络中的中断信息来推断断网,如图 1 所示。Downdetector 在 EDT 工夫的 10 月 4 日 11 时 44 分(即北京工夫 10 月 4 日 23 时 44 分)检测到 Facebook 网络稳定问题,具体起因没有阐明。

3、Facebook 和 WhatsApp 服务中断起因剖析

Facebook 的 AS 为 AS32934,WhatsApp 的 AS 为 AS11917。

北京工夫 10 月 5 日凌晨 0 时(UTC 工夫 10 月 4 日 16 时整)察看到 Facebook(AS32934)呈现网络稳定,其 Prefix 数量和 IP 数量都有所缩小。直到北京工夫 10 月 5 日早上 7 时整,Prefix 数量和 IP 数量复原,如图 2 所示。其中,Prefix 数量由 10 月 4 日 23 时 30 分的 129 个缩小为 10 月 5 日 0 时的 103 个,Prefix 数量缩小了 26 个, 共计 5,888 个 IP。失落 IP 块明细如下:

129.134.25.0/24、129.134.26.0/24、129.134.27.0/24、129.134.28.0/24、129.134.29.0/24、129.134.30.0/23、129.134.30.0/24、129.134.31.0/24、129.134.65.0/24、129.134.66.0/24、129.134.67.0/24、129.134.68.0/24、129.134.69.0/24、129.134.70.0/24、129.134.71.0/24、129.134.72.0/24、129.134.73.0/24、129.134.74.0/24、129.134.75.0/24、129.134.76.0/24、129.134.79.0/24、157.240.207.0/24、185.89.218.0/23、185.89.218.0/24、185.89.219.0/24、69.171.250.0/24

图 2 网动仪捕捉到 Facebook(AS32934)有显著稳定状况产生

Facebook 有 4 个权威 DNS 服务器,别离是 a.ns.facebook.com(129.134.30.12)、b.ns.facebook.com(129.134.31.12)、c.ns.facebook.com(185.89.218.12)和 d.ns.facebook.com(185.89.219.12),4 个 DNS 服务器 IP 都在失落的 IP 块中。

因而,这次故障的起因是调度数据中心之间网络流量的骨干路由器配置更改导致边界网关协定撤销了 Facebook 自治域 AS32934 下蕴含 Facebook 域名服务器 IP 的 IP 地址块,抹去了 Facebook 须要的 DNS 路由信息,紧接着 DNS 服务器离线,用户无奈解析 Facebook 和相干域名并拜访服务。

同时,在北京工夫 10 月 5 日凌晨 0 时开始也监控到了 WhatsApp(AS11917)下所有 Prefix、IP 和门路的失落,如图 3 所示。

图 3 网动仪捕捉到 WhatsApp (AS11917) 有显著稳定状况产生

WhatsApp 服务也无法访问的起因是:在 2019 年 Facebook 合并旗下所有服务并实现集中化,使公司能够对立理解用户的互联网应用习惯。然而,这也使得本次单点故障影响了整个 Facebook 服务体系。

综上所述,埃文科技网动仪捕捉到 Facebook 的 AS32934 和 WhatsApp 的 AS11917 的网络稳定,稳定工夫也与新闻报道的 Facebook 断网工夫吻合。服务中断起因是骨干路由器上的配置更改导致边界网关协定 (BGP) 撤销了托管 Facebook 域名服务器的 IP 地址前缀,进而引发的一系列服务异样。

正文完
 0