关于RTC:2021-技术展望-弱网下的极限实时视频通信

线上会议、在线教育、电商直播等多个场景的衰亡，也使得实时互动技术从幕后走到台前，失去了更多人的关注。编解码、网络传输、计算机视觉等 RTE 相干的一系列技术也正焕发出更强的生命力。2021 年，在深度学习、5G 等技术的加持下，RTE 会进一步催生哪些可能？声网 Agora 开发者社区联结 InfoQ 独特策动，邀请了声网 Agora 开发者社区中的多位技术专家，从视频传输、计算机视觉、编解码规范倒退、WebRTC、机器学习、音频技术等角度，独特撰写「2021 实时互动技术瞻望系列」，一窥技术新趋势。本文作者，南京大学陈浩、马展、刘浩杰。本系列内容由声网 Agora 开发者社区与 InfoQ 联结策动，并由 InfoQ 审校，首发于 InfoQ。

实时视频通信未然成为以后互联网利用的亮点。特地在这疫情期间，寰球都在“被隔离”，无奈发展线下流动，更加迫切的须要以实时视频通信为技术撑持的各种虚构线上交换。在可见的数年内，稳固高质量的互联网实时视频通信是各行各业的迫切需要，协同停工复产，帮忙经济复原；当用户习惯逐步养成，实时视频通信又将成为生产生存的根本配置。

从利用的角度看，用户对服务的需要和网络基础设施永远是一对不可和谐的矛盾。以实时视频通信为例，咱们永远无奈保障网络的全时稳固，弱网环境长期存在，特地在很多关乎到生存、生产乃至生命的关键时刻，通信网络往往受到极大的物理条件限度，如海事作业、应急救灾、高并发场景等。因而咱们更加须要摸索新实践新办法来无效的剖析、精准的建模、精确的预判，以期实现弱网极限环境下（如极低带宽 <50kbps, 极不稳固网络抖动，极大时延等）的高质量实时视频通信。

过来的 5 年，咱们南京大学电子学院团队在实时视频通信下做了一系列的摸索工作，搭建了以互联网云游戏 / 云 VR 为利用的实时视频通信平台（https://www.anygame.info/），嵌入人工智能（AI）办法驱动自适应网络带宽调节和端到端用户体验优化。目前，该平台仍然每天反对数百上千名用户实时操作，也帮忙咱们继续优化和更新，笼罩更多的利用场景。

近期乃至将来，咱们认为实时视频通信的外围问题还未失去解决，特地是弱网下的高质量保障，而这些 corner case 往往是服务水平的直观体现。面对弱网的各种限度，咱们提出极限实时视频通信：

从 AlphaGo 开始，强化学习在工作决策方面展示了不凡的能力；三年前，咱们提出基于强化学习的网络流控，自适应侦测调节带宽反馈给发送方优化视频压缩；这样的过程尽管带来了可见的成果，然而并没有真的解决网络流控和视频压缩流控的外围矛盾；网络流控的难点在于异构性，视频压缩的流控难点是内容多样性。近期，咱们将强化学习的决策机制同时涵盖编码和传输，全链路 AI 管制（状态采集，决策预判），实现更加精准的带宽管制；

基于 IP 的分组替换网络在视频传输网络中占据主导地位，使得端到端网络的吞吐量、提早等状态具备很高的时变性，并且在不同的用户之间因为网络资源竞争使得这些网络状态随工夫动静稳定。另一方面，因为实时视频通信要求的刻薄时延和视频内容复杂度差别，难以实现良好的码率管制。这使得难以通过对网路和内容建模生成对立、固定规定的码率自适应算法。

受人类行为决策思维启发，咱们引入强化学习实践和工具，综合思考视频编码与网络传输端到端流程，提出了基于强化学习的全链路网络流控，其零碎框图如图 1 所示。智能体首先察看以往实时视频通信会话的教训，即从视频编码器和接收端收集的编码状态、网络和播放状态，应用神经网络开掘编码和传输过程中视频内容和网络的潜在特色，并做出编码参数设置的决策。视频应用程序的发送端基于该决策编码和传输视频，在接收端进行解码播放后，产生新的状态，同时向智能体反馈以后决策的处分。基于此处分信号，智能体以最大化累积处分为指标不断更新神经网络参数。最终，咱们仅通过观察和学习编码、网络和播放的原始状态，对视频编码参数进行自适应调整，无效反抗网络稳定的同时，无效晋升用户体验品质（Quality of Experience, QoE）。

图 1 基于强化学习的全链路网络流控示意图

为评估基于强化学习的全链路网络流控的性能，咱们选取以后先进的谷歌拥塞管制（Google Congestion Control，GCC）和瓶颈带宽与往返时延（Bottleneck Bandwidth and Round-trip time，BBR）算法进行了比照试验，后果如图 2 所示。能够看出，绝对于 GCC 和 BBR 算法，咱们能够晋升别离 3.6% 和 27.9% 的归一化均匀 QoE 分数。其中，咱们以所有测试样本获得 QoE 的最小值与最大值进行归一化解决。

图 2 基于强化学习的全链路网络流控性能评估

用户很难预判网络的好坏。网络的异构性让这个问题变得极为艰巨。从医疗大样本数据分析推理失去启发，咱们引入网络多模态感知，梳理网络的不同规定，利用在线建模逐步完善，笼罩各种网络状况。针对不同的网络状况利用对应的网络模型实现大幅性能晋升；

对于实时视频通信场景，用于承载视频流的接入网络除了时变个性以外，还往往具备高度的异构性，如蜂窝链路（3G/4G/5G）、WiFi 无线链路、光纤链路等状态，这些接入网络具备不同的带宽、提早和缓冲容量。此外，用户应用网络的环境也简单多样，包含静止、步行、乘汽车、乘高铁等应用环境，使得带宽、提早等网络个性动静扭转，网络稳定频繁。繁多学习模型的性能往往难以笼罩如此简单、异构的网络环境。

为此，咱们引入了网络多模态感知进行在线建模和推理，其零碎框图如图 3 所示。发送端通过视频获取、视频编码和视频流化等解决后将视频流发送到网络上，接收端接管视频数据进行解码和播放等操作，并收集网络情况和视频播放状况相干数据。为减小码率决策时延，咱们将网路模态感知、码率自适应和在线建模与推理模块部署在接收端。首先，通过剖析和开掘历史网络状态特色，辨认以后网络模态，初步感知整体网络品质状况。之后，应用基于强化学习实践的多模态码率自适应，根据网络模态动静切换码率自适应模型，从而针对不同网络情况精细化生成不同的码率自适应决策算法。在理论新网络环境下，基于多模态码率自适应模型利用在线建模和推理，进一步面向以后环境更新和优化模型和算法，解决新环境下模型性能进化问题。一次码率决策实现后，接管到告诉和领导发送端的视频编码和视频流化模块对编码码率和发送码率进行调整，以抵制动静网络稳定。

图 3 网络多模态感知进行在线建模和推理零碎框图

鉴于图 2 中 BBR 性能差于 GCC，咱们选取 GCC 算法作为评估网络多模态感知进行在线建模和推理性能的比照对象，后果如图 4 所示。比照于 GCC 算法，多模态码率自适应模型能够晋升 9.1% 归一化均匀 QoE。其中，咱们以测试样本获得 QoE 的最小值与最大值进行归一化解决。在线建模与推理方法绝对于 GCC 算法，可能晋升约 15.1% 归一化均匀 QoE，并且在训练时也达到绝对稳固和可承受的码率自适应性能。

图 4 网络多模态感知进行在线建模和推理性能评估

在网络状态变差的时候，视频传输总会丢包；目前策略是 FEC 或者重传。无论哪一种形式都让网络更拥塞。从另外一个角度看，视频内容具备很强时空一致性（Spatiotemporal Coherency)；因而，与其进行爱护，不如间接有抉择的抛弃，前期利用时空一致性进行弥补。

为此，咱们引入了智能时空预测弥补模块，通过联结多帧视频时空相干一致性来在解码端间接重建抛弃的视频帧，其零碎框图如图 5 所示。接收端通过视频解码失去一系列时空相干的视频解码帧，这些视频帧在编码端编码过程中已通过有抉择的抛弃，来确保已存在的视频解码帧有很强的时空一致性来对抛弃帧进行复原。智能时空预测弥补模型能依据输出的解码视频帧结构一个非线性的二阶预测模型，该模型利用了物理概念对静止进行二阶建模，联合非线性的神经网络模型更好地预测失落视频帧。模型可基于接管到的视频解码帧，有选择地采纳间接法和疏导法，对不同静止个性和场景的视频进行分区域多重静止弥补，重建失落的视频帧。此外，为了取得极高的视觉晦涩度，咱们在重建过程中引入了时空一致性的束缚，使得重建的视频序列失去极高的视频时空晦涩度，基本上在视觉感知不变的状况下，通过被动丢包能够大幅升高网络压力，保障晦涩服务。

图 5 智能时空预测弥补模块

通过上述三个方面的翻新，咱们实现了 50kbps 下的高质量视频实时通信。

作者介绍：

马展，传授，南京大学, mazhan@nju.edu.cn

刘浩杰，博士生，南京大学, haojie@smail.nju.edu.cn

陈浩，副研究员，南京大学, chenhao1210@nju.edu.cn

点击理解更多实时互动信息～

关于RTC:2021-技术展望-弱网下的极限实时视频通信

第一次尝试实现全链路 AI 管制（包含编码和传输）

引入网络多模态感知进行在线建模和推理

强化网络被动决策

作者介绍：

Just My Socks（注册教程内含优惠码）

关于RTC:2021-技术展望-弱网下的极限实时视频通信

第一次尝试实现全链路 AI 管制（包含编码和传输）

引入网络多模态感知进行在线建模和推理

强化网络被动决策

作者介绍：

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）