关于中断:互联网中断检测技术窥览与讨论

140次阅读

共计 3419 个字符,预计需要花费 9 分钟才能阅读完成。

如其余人造零碎一样,互联网的运行也会出现异常甚至中断。仅在 2022 年就产生了多起影响重大的互联网中断事件:1 月 15 日汤加火山喷发三个小时后,全国断网,和外界的所有电话与网络分割都无奈接通;3 月 28 日,产生了 Twitter 的 AS13414 被俄罗斯 JSC RTComm.RU 的 AS8342 劫持事件;8 月 2 日,某人窜访台湾,其间新浪微博产生断网,导致用户无奈应用;因为俄乌地区问题,乌克兰别离于 9 月 11 日、10 月 10 日呈现大规模断网。
互联网中断造成的损失通常代价低廉,据福布斯报道,2013 年 8 月 19 日,亚马逊因为断网每分钟损失 66,240 美元。
因为互联网自治运行的个性以及网络协议的局限性,在应答互联网中断事件时面临许多挑战,包含如何剖析互联网中断、如何检测互联网中断、如何量化中断的影响、如何量化网络的健壮性、如何评估互联网中断的危险、如何在互联网中断下生存下来并加重影响等。所以,检测正在进行的网络中断对于定性和定量地理解破坏性事件的类型、范畴、结果与及时激活缓解和补救流动就显得十分重要。

 一、互联网中断的定义及起因分类

因为成心或意外事件,位于特定天文区域的一个或多个网络元素不能失常工作或无奈达到时,互联网所处的特定状态,就称为互联网中断。从骨干网络服务商的视角,互联网中断起因包含:

  •  保护:设施或链路的打算停机;
  • 路由器相干:包含解体 / 重启,线卡故障或重置,CPU 过载,人为谬误配置;
  • 光设施相干:包含光学器件故障和电缆割伤;
  •  其余多重链接:时间重叠且起因不明的故障;
  • 单链路高频率:包含因老化或长期测试 / 降级流动而完结应用的部署;
  • 单链路低频:起因不明的繁多故障。

从网络故障的潜在触发因素,互联网中断起因包含:
1. 大规模劫难(例如地震、飓风、流行病);

  1. 社会政治和经济挑战(例如恐怖主义、审查制度);
  2. 相干故障(例如电力短缺);
  3. 人为谬误(例如谬误配置);
  4. 歹意攻打(例如前缀劫持攻打);
  5. 异样但非法的流量(例如寻找突发新闻信息的人群);
  6. 环境挑战(例如因为特设网络中节点的移动性);
  7. 和平等等。
    后者是一个更宽泛更个别意义上的分类。

二、互联网中断检测和剖析技术

互联网中断检测和剖析技术分为两类:基于非流量和基于流量。

2.1 基于非流量
采纳与流量无关的根本技术时,通常查看非结构化数据源、半结构化数据源、结构化数据源。非结构化数据源包含技术博客 (如 Renesys)、邮件列表(如 NANOG) 和断网事件归档,以及最终用户收回的警报和通过微博社交网络的服务投诉等;半结构化数据源包含设施应用状况和谬误日志、客户邮件、品质告警、用户流动日志等;结构化数据源,如网络故障单,例如用文本开掘和自然语言解决来剖析中断邮件列表。

2.2 基于流量

基于流量相干的技术,又称在线中断检测,这些技术能够分为被动监测和被动探测。检测正在进行的网络中断对于定性和定量地理解破坏性事件的类型、范畴、结果与及时激活缓解和补救流动十分重要。无论是在物理中断的状况下 (容许辨认和可能更换损坏的网络组件),还是在逻辑中断的状况下(容许网络管理员疾速复原令人满意的运行状态),这些办法都特地有用。
检测网络中断通常须要四个步骤: 数据收集和预处理、网络中断检测、故障定位和根因剖析,大多数零碎只执行前两个步骤。这些零碎通过收集数据来继续监测网络,通常联合了被动监测技术或被动探测技术。在此步骤中,还将进行数据过滤和消毒,以便从数据中打消尽可能多的噪声。而后在第二步中,对精细化的数据利用不同的算法,以检测可能与 Internet 中断相干的大尺度和小尺度事件。

2.2.1 被动监测技术

大多数应用的被动监测技术都是基于管制立体信息,利用 BGP 协定收集管制立体数据。也有其余办法依赖于对数据立体流量的剖析,次要基于与停机事件相干的流量变动。
(1)管制立体
公开 BGP 数据存储库对系统中断检测以及特定中断事件的剖析十分有帮忙。在数据收集步骤中从公共存储库 (例如,Routeview、RIPE 等) 系统地爬取可公开取得的 BGP 数据,如 RIB 和 UPDATE 音讯。而后将该数据转换为适合的格局,以便进行后续剖析。BGP 数据还可用于定位产生中断的 AS。依赖 BGP 数据系统地检测网络中断时的次要毛病是大量的谬误警报,因为许多非法事件也可能确定门路或源前缀的扭转。
基于管制立体检测的办法包含:
1.Profile-based 检测
由 Li 和 Brooks 开发的一种用于检测网络中断并评估其影响的工具。其次要思维是对互联网的失常状态进行建模,而后在给定的一段时间内监控网络,以掂量互联网是否以及如何偏离这一状态。数据收集过程齐全基于私有 BGP 数据,而中断检测依赖于两阶段聚类办法。在 BGP 失常配置的状况下,将 BGP 以后属性值与参考值进行比拟。如果在固定的工夫窗口中存在显著差别,则检测到中断。BGP 一般配置文件示意为一组一般 BGP 属性值的集群。当产生中断时,测量的 BGP 属性会被划分到一个独自的异样集群中。
2. 基于工夫的变化检测
通过汇集与同一 BGP 事件相干的 BGP 更新,并将多个边界路由器上的事件关联起来,以便揭示异样,并尝试确定这些异样的根本原因。
有两种不同的路径:
(1)以互联网为观察点,通过剖析 AS-AS 的相互作用来跟踪异样;
(2)以托管核心为观察点,洞察 AS 如何受到来自也有几跳之遥的内部 AS 的异样的影响。
3. 其余检测办法。
如采纳张量合成法检测感兴趣的事件,采纳图论分析方法定位关注事件的源点等。
 
(2)数据立体
这类检测办法不依赖于域间路由数据,而是依赖于其余基于流量的数据源。依据采集点在网络中的地位,这些办法能够分为基于外围 (Core-based) 的办法,即在直达网络中察看数据流量,以及基于边缘 (Edge -based) 的办法,即在末端网络或终端主机上察看数据。
1. 基于外围的办法
基于流的连贯跟踪办法 (FACT) 依赖网络中所有边界路由器输入的流级数据来比拟流入和流出的流量。在数据收集过程中,FACT 收集每个近程主机、网络或 AS 的 Netflow 记录和聚合流。
要害思维是网络中断可能会导致:
(1)到近程目的地 (网络前缀、AS 等) 的不胜利单向连贯数量加
(2)胜利的双向连贯数量缩小。
2. 基于边缘的办法
该办法通常利用协同网络监测平台提供的多种网络故障排除工具。每个节点监督流和门路品质信息,如吞吐量、失落、提早,以本地检测事件,监督和关联终端用户应用程序的性能,以便裸露包含中断在内的网络事件。上述办法都波及保障用户隐衷的问题。

2.2.2 被动探测技术

许多其余中断检测零碎在数据采集过程中次要应用被动探测技术:
1. 依赖 Ping 和 Traceroute 从多个无利地位周期性地探测多个目标地址。2. 断层扫描办法。
这两种办法通常都依赖分布式被动测量平台。

1. 基于 Ping 和 Traceroute 的办法
该办法周期性地用 ICMP echo 申请 (Ping) 探测每个 IP 块,并将响应分为两大类:
(1)必定的,如果收到 ICMP 应答;
(2)否定的,如果 ICMP 应答表明网络不可达,或没有应答。否定的应答可能应答互联网中断
2. 层析扫描办法
二值层析成像是通过发送协调的端到端探针来检测链路故障。网络断层扫描是一个弱小的工具。然而它也有局限性:疾速检测网络中断意味着高探测率,这在事实网络中是不可行的。此外网络动静可能会减弱注入的数据包正在遍历先前察看到的雷同链路的根本假如,同时负载平衡进一步加剧了这个问题。

2.2.3 主被动混合办法

哈勃(Hubble)零碎依据 BGP 公共数据在管制立体上存在达到目标网络的路由,但报文没有通过数据立体达到目标网络的办法来检测互联网的可达性问题。数据采集依赖于 BGP 数据、管制立体变动触发的 Ping 和 Traceroute 测量值。PoiRoot 实时零碎,帮忙 ISP 精确定位任何影响其前缀的门路变动的根本原因。该零碎利用了 BGP 数据,但也联合了 Traceroute 等测量工具。主被动混合办法多见于学术研究,理论利用中较少应用。

2.2.4 探讨

依赖被动监控的互联网中断检测零碎十分高效,但容易呈现:(i)虚伪警报和 (ii) 与隐衷相干的重大问题。基于被动探测的解决方案较为无效,但伸缩性差。被动探测会向网络发送大量探测包,运行商往往不能容忍这种行为。此外,在指标目的地数量和采样周期之间的必要衡量导致中断检测零碎齐全依赖被动探测,可能只报告大型和长时间的网络中断。所以主被动混合办法仿佛是最好的抉择,因为它联合了被动监测和被动探测的长处。

正文完
 0