关于人工智能:当基础设施故障后声网-SDRTN™-如何保障-RTE-服务的高可用性

云计算的呈现为企业的治理、业务发展、资源整合等带来了极大的便利性，也是数字化建设的外围基建之一，然而部分宕机或者大面积宕机事件对于云厂商来说却也无奈防止，寰球当先的计算平台也不例外。例如，美国东部工夫12月7日上午10点45分，亚马逊 AWS 遭逢宕机，导致了迪斯尼+、奈飞等一些网站的在线服务受到影响，此次故障也在业内引发了较大的关注。

之所以说云厂商的宕机故障无奈 100% 防止，外围在于造成的起因有很多种，例如人为失误、网络中断或者区域性网络拥塞、停电、自然灾害等，作为云厂商，能做的就是一直优化技术与服务来应答这些问题，将宕机产生的概率降到最低。

声网作为寰球当先的实时互动云服务商，在海内的局部业务也应用了 AWS 的基础设施资源，在 AWS 宕机事件中，声网的实时音视频服务并没有受到波及，背地的外围起因在于声网 SD-RTN™ 大网的独特架构设计保障了 RTE（实时互动）服务的高可用性，做到机房、硬件、网络等基础设施呈现故障的状况下，依然能够给用户提供高可用的 RTE 服务。

首先咱们要理解什么是高可用性。一般来讲，一个靠谱的云服务肯定是可用性十分高的，可用性的评判规范 SLA：服务等级协定（Service Level Agreement）对于云厂商来说就是服务可用性的一个保障，国内很多云厂商在售卖云服务时都会承诺 99.9% 的可用性，9 越多代表全年服务可用工夫越长服务更牢靠，反之亦然。例如以全年 365 天做计算，99.9% 的可用性，每年只有 8.76 小时的服务是不可用的，可用性的每一次晋升都是一次技术的挑战，当遇上环境灾祸、公网基础设施不牢靠等问题时，怎么样疾速高空对这些问题，多长时间复原，是否有成熟的备案这是任何一个云厂商都要诚恳面对的问题。

想要晋升服务的可用性，须要从多个层面进行布局，例如机房安排、服务基础架构、运维自动化等，那么声网具体是如何在实践中保障RTE服务的高可用性，咱们能够从四个层面开展来讲：

01 SD-RTN™架构设计：故障实时感知与智能调度、异地多活

业务架构：家喻户晓，基础设施会因为突发的网络拥塞、硬件故障、不可抗力等因素导致或大或小的一段时间的不可用。在这样的前提下，声网 SD-RTN™ 大网的架构师团队从设计之初就充分考虑到了基础设施的不稳固因素。如果要用几个关键词来形容 SD-RTN™，那就是寰球笼罩、故障实时感知与智能调度、超低延时、弹性能力、异地多活、超高并发，而一旦基础设施呈现故障，SD-RTN™ 的故障实时感知与智能调度能力以及异地多活的构建形式将施展重要作用，保障服务的高可用。

故障实时感知与智能调度：从寰球来看，公网网络的稳定是较为频繁的，SD-RTN™ 的网络嗅探服务可能实时的感知网络的品质，联合 AI Ops（智能运维）的剖析能力，可能实现分钟级的用户迁徙，保障用户的音视频体验。

异地多活：SD-RTN™ 大网将寰球资源划分为多个 Region（区域），在 Region 内仍然可能做到最低 N+3（即：在最大的 3 个资源集群不可用的状况下，残余的资源仍然可能承接以后 Region 的负载）资源冗余的要求，不仅如此，Region 之间仍然可能造成互补的态势，某个 Region 故障时，能够通过互补 Region 进行承接。

灵便的扩弹性缩容能力：SD-RTN™ 大网的每个 Region 至多具备 200% 的实时弹性扩缩容能力，具备应答突发事件的能力，配合智能调度可能充沛正当的进行资源应用。

SDK：同时，在音视频 SDK 侧声网也进行了大量的优化工作，包含抗弱网优化，音视频体验优化等，造成和业务层进行”内外夹攻”的场面，晋升服务的可用性。

02 基础设施层面：机房寰球散布、五地三核心资源笼罩

根底资源选点： SD-RTN™ 在寰球部署了 250 + 数据中心，笼罩寰球 200 多个国家与地区，对于次要区域的最低要求是五地三核心的资源笼罩，每个区域采纳外围节点 + POP 点的形式。这样一旦某区域其中一个或两个机房产生故障，依附技术能够将故障城市的流量全副切换到运行失常的机房。

供应链治理：不依赖单家供应商的根底资源(包含：机房、硬件、网络等)，当一家供应商呈现问题，能够疾速切换到其余服务失常的供应商。

03 智能运维，疾速阻断故障

现在行业都有一个共识，即运维复杂度在迅速减少，然而传统运维曾经顾此失彼，为此，声网投入了微小的资源和人力，克服了 AI 工程化落地的难点，将智能运维全面利用于 SD-RTN™ 的日常运维中，解决了传统运维的痛点：7*24H 不间断保障；高一致性和高质量的执行后果；对立高效的运维效率。

声网的 AI Ops（智能运维）能在 1 min之内（蕴含了数据聚合、上报、判断、执行、复原等整体端到端工夫）辨认机房异样并且主动运维，疾速阻断故障影响蔓延, 保障边缘服务高可用。例如，边缘节点的网络拥塞是无奈防止的, 在呈现拥塞之后, 用户的音视频体验会打折(卡顿, 延时增大)，这种状况下经验丰富的运维人员在 daytime 期间从故障发现到解决均匀要花费20分钟, 如果故障产生在深夜或者解决不及时, 工夫会更长, 这对用户的体验影响很大. 这时候 AI OPS的价值就体现进去了, 它能在 1 min之内辨认并解决异样, 并且7*24不间断高一致性地执行, 以保障用户高质量的 RTC 体验。

04 RTE 行业首个体验质量标准-XLA

后面咱们提到，SLA 是很多云厂商与电信行业对服务可用性的评判规范，但在声网看来，SLA 对设施和网络接入规范进行标准，关注的是服务的可用性。然而在 RTE 行业，仅仅达到“可用”规范远远不够，用户渴望的是清晰晦涩、没有卡顿的音视频互动，那么在实时互动体验品质上就必须达到“好用”的规范。对此，声网在 2020 年 7 月设计定义并推出了实时互动行业首个体验质量标准-XLA（Experience Level Agreement），这也是为 RTE 服务的可用性与体验品质推出的首个可量化、可查证、可赔付的体验质量标准。

与 SLA 不同的是，XLA 不仅关怀实时互动的可用性和服务质量，还关注用户的体验品质，同时这也是第一个将质量保证焦点由设施转移到人的规范。XLA 次要蕴含四项体验指标，即 5s 登陆成功率、600ms 视频卡顿率、200ms 音频卡顿率和 400ms 网络延时达标率，四个指标的月度达标率（1-不达标切片总时长/月度总时长)均需超过 99.5%。5s 登录成功率是指登录胜利耗时需小于 5s 才算合格，这项指标次要考验实时互动的可用性与期待体验；600ms 视频卡顿率与 200ms 音频卡顿率次要考验实时互动过程中流畅性体验；400ms 的网络延时指标面向音视频互动的实时性，延时需低于 400ms。

通过 XLA，客户能够取得声网对登陆成功率、端到端延时、音视频卡顿率等多个维度的实时互动体验品质承诺和保障，不须要再去放心终端用户的体验品质问题，真正做到用的释怀，用的满意！

定义实时互动体验质量标准看似只是几个指标，但理论背地承载了声网团队长期的付出。XLA 质量标准的推出，是通过上百名技术专家针对全链路数据重复打磨、改良、验证，经验了 10 个版本的重复迭代，适配了 50+ 网络模型、200+ 国家与地区的优化、6000+ 不同类型终端体验的优化以及全链路 1万亿分钟的数据打磨。这背地代表的也是声网在实时互动云行业的长期深耕与积攒。

关于人工智能:当基础设施故障后声网-SDRTN™-如何保障-RTE-服务的高可用性

01 SD-RTN™架构设计：故障实时感知与智能调度、异地多活

02 基础设施层面：机房寰球散布、五地三核心资源笼罩

03 智能运维，疾速阻断故障

04 RTE 行业首个体验质量标准-XLA

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于人工智能:当基础设施故障后声网-SDRTN™-如何保障-RTE-服务的高可用性

01 SD-RTN™架构设计：故障实时感知与智能调度、异地多活

02 基础设施层面：机房寰球散布、五地三核心资源笼罩

03 智能运维，疾速阻断故障

04 RTE 行业首个体验质量标准-XLA

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复