关于边缘计算:无处不在的边缘网络感知

1次阅读

共计 2656 个字符,预计需要花费 7 分钟才能阅读完成。

01 引子

CDN 服务了互联网的大部分场景,是互联网业务背地重要的根底组件。CDN 的拜访异样有可能造成大面积的互联网业务影响,如何应答拜访异样是掂量 CDN 服务质量好坏的一个重要规范。比方某某电信大楼着火事件造成了某些地区的网络不可拜访,阿里云 CDN 通过技术手段,保障了客户业务的失常运行。这背地是如何做到的呢?

02 技术简介

阿里云 CDN 领有 3 千个节点,撑持了寰球的内容下载减速服务,能够看作是一个宏大分布式系统。节点泛滥能够服务更广范畴的客户,但同时也带来了零碎的极大复杂性。

某个节点可能因为各种起因不能服务客户,如运营商网络问题、节点设施问题、某个服务问题或者某个回源链路问题等等。CDN 解决问题的一个罕用办法是——疾速节点逃逸,即疾速发现有问题的节点,而后切换掉这个节点的业务。疾速发现问题成为解决 CDN 问题的要害一环。

如何疾速发现 CDN 问题?如前所述节点拜访问题会有各种各样的起因,那么须要针对每个场景去设计不同的的监控形式,但这会是一个异样简单的探测监控零碎。

有没有更高效的形式呢?剖析可知,尽管出问题的场景多种多样,然而大部分的场景都会体现为业务网络拜访问题。所以通过网络探测的形式去发现边缘云节点问题是一条便捷、疾速的形式,即通过边缘网络感知疾速发现问题。这里说的边缘网络感知,既包含根底的 3、4 层根底网络探测,如 ICMP ping、TCP Ping 等,也包含下层业务探测,http/https 等业务相干的探测。

通过网络探测发现节点问题,关键点是在无限的资源下如何更快地发现问题。在快的同时,也须要解决准和全的问题。

准和快通常是矛盾的两方,一个网络稳定可能继续 10 秒,随后又复原了失常,如果 10 秒就决策逃逸,那么就容易陷入来回稳定的场景。须要快和准之间寻找最佳的平衡点。

笼罩全和资源无限又是一对矛盾,CDN 撑持寰球几十亿的用户,各种场景很难全笼罩,或者须要极高的代价能力进行全面的笼罩。一直晋升探测能力、扩充覆盖范围,也是边缘网络感知的必然之路。

03 边缘网络感知架构

对于网络探测来说,有三个根本组成部分,探测源、探测指标以及探测链路。

探测源是工作的发起方,通过发动多种探测形式探测整个链路。

探测指标是被探测方,它既可能是边缘云自有资源,也可能是业务方指标,还可能是第三方资源,如电信运营商根底资源。

探测链路随着不同场景,笼罩不同的链路,可能是根本的网络链路,也可能蕴含某个两头链路,还可能是一条端到端链路。针对不同链路进行探测数据分析,失去边缘网络品质的要害信息。

对于边缘网络感知,通常放在一个残缺的业务逻辑,包含工作布局、网络探测、数据收集、数据处理,以及最终的业务生产。

04 阿里云的边缘网络感知经验的三个阶段

1.0 骨干网网络感知阶段

CDN 拜访的典型场景是,客户拜访就近的 CDN 节点,该节点对申请提供服务。当就近节点没有缓存内容的时候,就会向其余 CDN 节点申请或者向源站进行申请对应的资源。宏观上看,CDN 节点间构建了一张宏大的内容传输的骨干网。

骨干网网络感知就是基于边缘节点,针对节点间的网络品质进行感知,当呈现问题及时进行逃逸。CDN 骨干网承载节点间中的大量重要数据,类比人体血管的话,就是人体的各个主动脉。骨干网拜访出故障会呈现全局性的问题,影响全国、全省或者几个地级市的业务。

阿里云 CDN 基于边缘云 3K+ 节点,针对节点间的网络品质,构建了寰球骨干网网络感知零碎。当初每分钟运行着几十亿的探测,保障着 CDN 业务的安稳运行。

2.0 全链路感知阶段

全链路感知由最初一公里探测、骨干网探测和源站探测形成。其中最初一公里探测,是客户常常关注的问题。骨干网网络感知解决了 CDN 大范畴故障的问题,然而对于某个或某几个节点的问题,仍宽泛存在。

随着阿里云 CDN 体量越来越大,小范畴的问题也会造成较大的影响。一种典型问题就是,客户上报某某省拜访有问题,然而 CDN 侧却不能发现。问题排查下来发现,最初一公里的链路影响了客户的拜访。而最初一公里探测可能疾速的发现客户测问题。

如何构建最初一公里探测:专用的端探测设施 + 节点反向网民探测。基于端探测设施,阿里云构建了与客户拜访统一的网络感知能力,以此模仿客户的业务拜访。端探测设施资源无限,有可能笼罩不全,与节点反向网民探测造成互补。

阿里云基于骨干网探测、端边探测技术以及回源探测能力,构建了寰球笼罩的全链路网络感知零碎。当初每分钟运行上亿次全链路探测,笼罩了 CDN 节点全量 VIP 网络品质监控。

3.0 智能剖析网络感知阶段

构建网络拓扑,并基于网络拓扑进行网络问题的剖析。

国内运营商的网络是绝对简略的。三大运营商都是团体、省公司、市公司的构造,对应的网络也是分层的,国家骨干网、省级骨干网以及县市的网络。随着阿里云海内业务的一直拓展,网络感知也拓展到海内场景。

新场景新特点:运营商多,BGP IP 多,多线路宣告。什么意思呢?在国内 A 到 B 的拜访,通常布局在同一个运营商,是一条布局好的路线,A 从 A 省,到国家档次骨干网,到 B 省,到 B 市,到 B。而在海内不同,A 到 B,有可能经验多个运营商,比方可能是:A-> 运营商 C-> 运营商 D-> 运营商 B->B,也可能是 A-> 运营商 E-> 运营商 B->B。不同运营商会设置不同的策略,造成网络拜访的复杂度更高。

新问题新思路:在国内探测办法根底之上,减少多线路探测能力,构建海内网络拓扑图,感知所有可达线路的品质。在多条可达链路中进行最优抉择,保障客户业务的服务质量。

CDN 节点逃逸成果:针对不同场景,边缘网络感知零碎定制了相应的策略。对于重点链路,采纳高强度探测,最高做到毫秒级探测,可能实现秒级逃逸;对于大规模问题节点,基于互联网网络稳定的特点,实现分钟级逃逸;对于单 VIP 问题,实现十分钟级逃逸。

边缘网络感知一个重要场景是节点逃逸,这也会利用到到其余场景:

| 选路场景。全站减速、直播、组网等业务,都会基于网络状态进行最优门路的抉择。网络感知作为选路的根底信息,提供了实时及历史数据,进行最优门路的抉择。

| 节点品质分级场景。

| 协定栈优化场景等。

05 总结与瞻望

基于边缘网络感知的品质大图监控整个边缘云的运行状态,既有实时的问题发现与问题解决,又有长周期的资源品质评估、业务品质评估、技术指标基准等。这些保障着边缘云的衰弱倒退。

全链路探测笼罩了大部分场景,然而还不能做到每个客户的业务都能有对等笼罩的监控。如何更无效的探测,是个值得思考的问题。把边缘网络感知设想成人体的神经系统,它既要无处不在、处处感知,又要能做到重大影响疾速感知、快速反应,小的影响无效过滤。

正文完
 0