关于云计算:万人连麦的幕后技术详解

7 月 29 日 – 7 月 30 日，由青云科技举办的 CIC 2021 云计算峰会在北京胜利举办，拍乐云服务端专家沈伟锋受邀缺席峰会，并在音视频技术论坛上以《大规模实时音视频技术架构的实际和演进》为演讲主题，分享了实时音视频通信的几种常见架构和网络拓扑，构建实时音视频理论场景的复杂性和多样性，以及拍乐云在超大规模实时音视频零碎的一些实际。

寰球疫情继续重复，线上互动仍然是后疫情时代人们工作、生存、娱乐的常态，实时音视频的需要还在减少。通过一直的演进，拍乐云能够反对 单房间万人在线、千人视频连麦、万人音频连麦，并做到 99.95% 的高可用，服务于寰球用户。本篇演讲实录将由浅入深，一步一步带大家理解实时音视频通信零碎背地的技术细节。

直连，也叫对等网络 (P2P)。这种构造中，每个客户端在启动的时候，都须要注册到注册服务器，便于其他人能找到本人，失常状况下，在建设音视频通信的时候不须要媒体服务器的染指，每个客户端相互连接，间接进行音视频通信。但当一个或多个客户端在 NAT 之后（甚至多层 NAT 之后）时，直连会变得比拟艰难，有时候甚至无奈联通。这个时候须要通过 STUN 进行“打洞”来穿梭 NAT 进行通信，如果“打洞”失败，还须要引入服务器中继能力通信。

MCU (Multipoint Conferencing Unit) 计划呈现得比拟早，相应的技术也十分成熟，该计划由一个服务器和多个客户端组成一个星形构造，各个端都将音视频数据发送给服务端，服务端会把所有客户端的音视频数据通过解码、同步、重采样、布局、混流、编码等，最初把媒体数据推送给所有的客户端。实际上服务器端就是一个音视频混合器，这种计划服务器的计算压力会十分大。个别状况下，在音频数据混流之前，服务端会把指标用户本人的音频数据移除，防止客户端听到本人的回声。在视频数据混流前，服务端会检测每个指标用户是否有自定义的布局，否则就按零碎默认的布局混流编码。在一些网络比较复杂的环境下，MCU 也能够按指标用户的带宽对视频数据的编码码率做一些自适应的调整。

SFU (Selective Forwarding Unit) 是最近几年风行的新架构，SFU 的计划跟 MCU 相似，每个客户端都把音视频数据发给服务端，而后由服务端转发给不同的客户端。跟 MCU 不同的中央，SFU 不对音视频进行混流，收到某个客户端的音视频数据后，按需 (指标客户端是否订阅) 将音视频数据一成不变的转发给指标客户端。它实际上就是一个音视频路由转发器。在这种计划里，所有的混流都是在客户端做的，对服务端的计算要求大大降低。在一些简单的网络环境，视频的数据源端会应用 Simulcast 或 SVC 发送多层不同分辨率的视频流数据，服务端依据指标客户端的不同网络带宽和网络情况转发最合适的分辨率给指标客户端，使每个客户端的体验达到最佳。

从下面的比照，咱们能够看到，直连计划根本不大适宜大会场景，而且无奈对网络内容进行审核，直连计划目前市场上根本只有在收费场景中看到。而随着计算成本和带宽老本的大幅度降落，及超大并发的需要，SFU 计划的劣势变得非常明显，而 MCU 计划在一些企业内基于音视频终端的通信等传统利用场景目前还是比拟常见的。

下面的音视频通信架构，是最根底的音视频服务架构，还没有方法做到高可用和高并发，假如服务器宕机，服务就变的不可用了。

环型构造由网络中若干节点通过点到点的链路首尾相连造成一个闭合的环，这种构造通过公共传输链路组成环型连贯，数据在环路中沿着一个方向在各个节点间传输，信息从一个节点传到另一个节点。

这种网络实现，构建和路由选路都很简略，没有核心依赖。但环状网络结构减少删除节点比拟艰难，环中任何一个节点生效，环路传输就会中断，导致整个网络瘫痪。环状网络结构开始次要用于令牌网，目前曾经很少被采纳。

星型拓扑构造是一个核心，多个分节点。它构造简略，连贯不便，治理和保护都绝对容易，而且扩展性强，网络提早小。核心节点是瓶颈，一旦生效，整个网络就瘫痪，单叶子结点相互独立，互不影响。

树形拓扑构造形态像一棵倒置的树, 顶端是树根，树根向下分支，每个分支还可再向下分支，树根接管各站点发送的数据，而后再播送发送到全网。好扩大，容易诊断谬误，根节点是瓶颈。在音视频服务架构中，当须要大规模扩大并发用户的时候，个别都会采取部署多个边缘计算管制节点，并通过树型形式连贯到核心 DC。通过这样形式接入的用户，提早会略有减少。

在网状拓扑构造中，网络的每台设施之间均有点到点的链路连贯，网状拓扑构造是利用最宽泛的。它的长处是没有核心节点，可靠性高，容错能力强，提早低，但结构复杂，因有多条传输门路，选路和流量管制比较复杂，音讯的时序一致性无奈保障。

在音视频服务架构中，咱们的设计指标是：极低的提早，传输高效，吞吐量大，但对不同用户来的媒体数据的时序性、一致性并没有要求。因而网状结构个别是音视频服务架构中主 DC 服务管制节点间组网的首选拓扑构造。

挪动网络：3G/4G/5G 的接入带宽各不相同(3G: < 2Mbps；4G:10~100Mbps；5G:~10Gbps)，并且信号强弱，接入基站随挪动变动。

有线宽带：LAN 接入，共享进口带宽，容易呈现用户间带宽竞争；ADSL 接入，上下行带宽不对称，上行带宽低；PON & FTTH 间接光纤接入，带宽稳固。

无线接入：支流路由器 < 150Mbps (2.4G 频段最大 300Mbps，5G 频段最大 867Mbps)。

传输门路上路由器、交换机吞吐量各不相同，呈现性能瓶颈时，丢包策略和资源预留策略会有差别。

咱们须要面对的设施有桌面设施、挪动设施、穿戴设施、物联网设施等，这些设施上的要害模块的品质，性能参差不齐。这些要害模块包含：网络模块、媒体采集模块(Camera/Mic)、计算模块 (CPU)、渲染模块 (GPU) 等。

BGP (Border Gateway Protocol) 机房实现单 IP 多线接入，具备智能路由抉择，线路备份，故障后主动切换到可用线路等。多运营商专线接入，须要从应用层解决选路，故障时线路切换等。单运营商专线接入，无奈解决不同运营商之间的互联互通的问题。

正是因为理论场景的复杂性，多样性导致了：

网络的动态变化：带宽、丢包、抖动、提早等；
采集数据的动态变化：乐音(噪点)、畸变、输入数据抖动等。

要做到服务高并发、高可用，次要波及到上面几项技术：

高并发服务集群

咱们在音视频服务基础架构中讲到，单机服务并发量受限于服务器的计算资源，当须要十分高并发的时候，咱们必须扩大服务端计算资源，组成服务集群，并通过后面的负载平衡使客户端来服务申请被平衡的调配到集群中的每个计算资源。

服务故障的主动复原和降级

咱们晓得任何代码都或多或少会存在逻辑缺点，即便是世界上最厉害的人也无奈防止，因而，咱们须要一个机制来保障，当故障产生时，零碎能主动捕捉谬误，并复原服务的可用性。当一些物理上的瓶颈呈现的时候，比方服务计算资源，网络带宽呈现瓶颈的时候，持续按失常形式提供服务，可能会产生雪崩效应，导致整个服务不可用，在这个时候，咱们须要通过服务降级的形式来保障最次要的性能是可用的。比方敞开视频并不会对沟通造成重大的影响，但敞开音频可能使沟通无奈持续，那就保留音频，敞开视频，来保障整个服务的可用性。

服务资源弹性伸缩

在虚拟化，SDN 等技术的加持下，使得计算资源，网络资源的动态分配成为可能，因而在服务资源成为瓶颈时，动静伸缩服务资源在技术上是可行的。

异地容灾备份

在一些极其状况下，比方咱们部署服务集群的机房产生火灾，如何来保障咱们的服务可用？这个时候，咱们会在不同地理位置部署多个服务集群，在失常状况下，不同地理位置的服务集群都会同时提供服务，当某个集群产生不可用的时候，咱们的服务监控会检测到相应的事件，并及时调整路由，把新的服务申请调度到可用的其余服务集群。

在以上几个次要技术的加持下，拍乐云目前曾经能够做到 99.95% 的高可用，并服务于寰球用户。

面对复杂多变的网络环境，如何保障提供高质量的音视频服务是音视频服务零碎十分重要的工作，在这方面，拍乐云次要应用了这些技术来保障服务的高质量：带宽评估、拥塞管制和平滑发送、丢包重传和前向冗余纠错、谬误暗藏和复原、基于时域和空域的多层散发 (SVC & Simulcast AVC)、基于图像和语音的去噪和加强、回音打消、音量自适应调整、网络资源预留。通过这些技术的利用，拍乐云即便在 70% 的丢包率下，仍然能提供十分高质量的音视频服务。

大家晓得，在 SFU 计划中，音视频数据是全量转发的，也就是说在 10 集体的会议中，服务端要把每个人的数据转发给其余 9 个用户 (109)，在用户数小的时候，问题不会太重大，但随着用户量的减少，问题会变的越来越重大。假设会中有 100 集体，每个人的视频数据是 1Mbps，理论服务端须要转发的是 10099 = 9.9Gbps，在现实情况下，这简直是不可能的。在理论状况中，受屏幕大小的限度，每个人不可能同时去看另外 99 个用户的视频，最常见的状况是 1 大 + 6 小，或 22、33、44、55 等几种模式，这样通过按需转发的形式，数据量能够大幅度的缩小。

在下面实时通信零碎的网络拓扑构造中咱们讲到，通过部署多个边缘计算节点，按树型构造链接到主 DC，能够大幅度扩充会议的规模。边缘计算节点也能够通过就近接入来解决最初一公里的接入问题。

在单向直播的场景中，咱们也能够通过第三方 CDN 网络来扩大会议规模，但这种计划的提早会比拟大，会达到 3～10 秒的提早，根本无奈互动沟通，只能单向直播，当须要互动沟通的时候，必须切换接入形式到边缘计算节点或核心 DC。

架构图的右边次要是服务的注册、认证、配置、发现、调度。左边次要是大数据分析平台，服务健康状况监控报警，服务资源弹性伸缩。两头是拍乐云的产品服务：语音通话、视频通话、互动白板、互动直播、云端录制等。

近年来，音视频通信畛域的倒退十分快，呈现了各种前沿新兴的技术，有的曾经落地，有的还在深入研究之中，很多技术的利用前景都十分好。在这里举几个例子：

2010 年 5 月，Google 收买 Global IP Solutions 的 GIPS 引擎，将其开源并改名为 WebRTC。2014 年 7 月，WebRTC 成为 W3C 规范，并公布浏览器规范 API1.0。自此以后，实时音视频通信服务的门槛大幅度降低，很多基于 WebRTC 的实时音视频服务如雨后春笋般蓬勃发展起来。能够说 WebRTC 的呈现扭转了音视频通信畛域的市场格局。

WebRTC 目前还在不停地演进中，有趣味的能够从上面的链接获取最新的信息：

[1] https://webrtc.org/

[2] https://groups.google.com/for…!forum/discuss-webrtc

[3] https://twitter.com/webrtc

[4] https://webrtcweekly.com/

Software Defined Network 即软件定义网络，最后是由美国斯坦福大学 CLean State 研究组提出的一种新型网络翻新架构，可通过软件编程的模式定义和管制网络，其管制立体和转发立体拆散及开放性可编程的特点，被认为是网络畛域的一场反动，为新型互联网体系结构钻研提供了新的试验路径，也极大地推动了下一代互联网的倒退。

其外围概念是：管制与转发拆散，治理与管制拆散。其可编程和虚拟化特点能够帮忙疾速定义网络，并实现自动化部署和运维。管制和治理的集中，使得网络门路最优化变得更加容易实现。

机器学习在很多畛域都失去了宽泛的利用，在实时音视频通信畛域上也呈现了很多利用方向，比方：

网络传输相干：智能拥塞算法、智能带宽评估算法、智能路由等。
视频图像相干：虚构背景、超分辩率、视频交融、deepfake 等。
语音相干的：语音辨认、语音加强等。

虚拟现实 (Virtual Reality)，就是虚构和事实互相联合，是一种能够创立和体验虚拟世界的计算机仿真零碎，它利用计算机生成一种模仿环境，使用户沉迷到该环境中。加强事实 (Augmented Reality) 是一种将虚构信息与真实世界奇妙交融的技术，实在环境和虚构物体之间重叠之后，可能在同一个画面以及空间中同时存在。通过 VR、AR、3D 技术的联合，置信不久的未来，实时音视频通信能够实现相似于事实世界中会议室一起散会的成果。

本文由博客一文多发平台 OpenWrite 公布！

关于云计算:万人连麦的幕后技术详解

实时音视频常见架构

直连

MCU

SFU

比照和总结

构建实时通信的网络拓扑

环状网络结构

星型 / 树型网络结构

网状网络结构

理论场景的多样性

网络接入的多样性

传输门路上设施的多样性

终端设备的多样性

服务端接入的多样性

架构演进和拍乐云实际

服务的高并发、高可用

服务的高质量

超大规模，超高并发

SFU 架构中的有抉择的数据转发

边缘计算与减速节点

拍了云音视频零碎技术架构

业界动向与最新技术

WebRTC

SDN

基于机器学习的新算法

虚拟现实、加强事实和 3D 技术