1、相干新闻

据BBC等媒体报道,UTC工夫2021年10月4日15时39分(即北京工夫10月4日23时39分),社交网络Facebook及其子公司Messenger、Instagram和WhatsApp寰球无奈应用长达7个小时。

Facebook在其twitter中发表官网申明“Our engineering teams have learned that configuration changes on the backbone routers that coordinate network traffic between our data centers caused issues that interrupted this communication. This disruption to network traffic had a cascading effect on the way our data centers communicate, bringing our services to a halt” (翻译:调度数据中心之间流量的骨干网路由器配置变动造成了这次通信中断。这种网络流量中断对数据中心的通信产生了连锁效应,最终导致咱们服务宕机。)

能够看出官网的回答并没有很分明地阐明谬误起因。因而咱们复盘给出宕机事变的根本原因。

2、Downdetector监测到Facebook网络稳定

图1 Downdetector监测到Facebook网络稳定

Downdetector网站通过收集社交网络中的中断信息来推断断网,如图1所示。Downdetector在EDT工夫的10月4日11时44分(即北京工夫10月4日23时44分)检测到Facebook网络稳定问题,具体起因没有阐明。

3、Facebook和WhatsApp服务中断起因剖析

Facebook的AS为AS32934,WhatsApp的AS为AS11917。

北京工夫10月5日凌晨0时(UTC工夫10月4日16时整)察看到Facebook(AS32934)呈现网络稳定,其Prefix数量和IP数量都有所缩小。直到北京工夫10月5日早上7时整,Prefix数量和IP数量复原,如图2所示。其中,Prefix数量由10月4日23时30分的129个缩小为10月5日0时的103个,Prefix数量缩小了26个,共计5,888个IP。失落IP块明细如下:

129.134.25.0/24、129.134.26.0/24、129.134.27.0/24、129.134.28.0/24、129.134.29.0/24、129.134.30.0/23、129.134.30.0/24、129.134.31.0/24、129.134.65.0/24、129.134.66.0/24、129.134.67.0/24、129.134.68.0/24、129.134.69.0/24、129.134.70.0/24、129.134.71.0/24、129.134.72.0/24、129.134.73.0/24、129.134.74.0/24、129.134.75.0/24、129.134.76.0/24、129.134.79.0/24、157.240.207.0/24、185.89.218.0/23、185.89.218.0/24、185.89.219.0/24、69.171.250.0/24

图2 网动仪捕捉到Facebook(AS32934)有显著稳定状况产生

Facebook有4个权威DNS服务器,别离是a.ns.facebook.com(129.134.30.12)、b.ns.facebook.com(129.134.31.12)、c.ns.facebook.com(185.89.218.12)和d.ns.facebook.com(185.89.219.12),4个DNS服务器IP都在失落的IP块中。

因而,这次故障的起因是调度数据中心之间网络流量的骨干路由器配置更改导致边界网关协定撤销了Facebook自治域AS32934下蕴含Facebook域名服务器IP的IP地址块,抹去了Facebook须要的DNS路由信息,紧接着DNS服务器离线,用户无奈解析Facebook和相干域名并拜访服务。

同时,在北京工夫10月5日凌晨0时开始也监控到了WhatsApp(AS11917)下所有Prefix、IP和门路的失落,如图3所示。

图3 网动仪捕捉到WhatsApp (AS11917)有显著稳定状况产生

WhatsApp服务也无法访问的起因是:在2019年Facebook 合并旗下所有服务并实现集中化,使公司能够对立理解用户的互联网应用习惯。然而,这也使得本次单点故障影响了整个Facebook服务体系。

综上所述,埃文科技网动仪捕捉到Facebook的AS32934和WhatsApp的AS11917的网络稳定,稳定工夫也与新闻报道的Facebook断网工夫吻合。服务中断起因是骨干路由器上的配置更改导致边界网关协定(BGP) 撤销了托管Facebook域名服务器的IP地址前缀,进而引发的一系列服务异样。