关于通信云:融云为WICC2021新视界带来视频压缩技术新探索

7 月 24 日，以“新视界·连将来”为主题的 2021 寰球互联网通信云大会（以下简称 WICC 2021）在北京胜利落下帷幕。来自主办方寰球互联网通信云领导厂商融云的视频算法专家黄震坤在“RTC 新技术与利用”技术分论坛中，分享了《基于人工智能的视频编码优化》的演讲。

图 1 WICC 现场融云视频算法专家黄震坤发表演讲

依据美国思科公司的相干钻研报告，到 2022 年，寰球挪动数据流量将达到每年 930 艾字节，相当于通过寰球网络每 5 分钟传输一遍有史以来所有电影的流量，视频流量占挪动数据流量的比例将飙升至 79%。微小的传输压力下，视频编码压缩技术就显得尤其重要。因而，本届 WICC 黄震坤聚焦于视频压缩的前沿技术，针对不同场景需要，为开发者论述了视频编码方向的最新研究成果、融云的摸索实际，以及该畛域将来的发展前景。

融云在监控场景的视频压缩技术及解决方案

WICC 2021 上，黄震坤以交通监控视频场景为例，论述了随着智慧交通的疾速倒退，交通监控视频的数据量出现爆炸式增长，给现有的传输和存储系统带来了微小的压力，因而，进步监控场景视频压缩的压缩效率显得至关重要。

黄震坤认为，要对交通监控视频进行高效压缩，就必须依据该场景特点，将背景区域和静止区域粗疏辨别。典型的背景区域包含修建、树木等，在画面中占比拟大，且绝对固化、变动不大；静止区域包含车辆、行人等，只占整个视频区域的一小部分。典型的监控视频如图 2 所示，静止的车辆即为前景区域。整体而言，视频的相邻帧之间的变动轻微，应成为监控视频压缩关注的重点。

图 2 典型的监控场景

针对这些特点，业界晚期的做法是在重建帧中抉择出长期参考帧，并与己有短期参考帧组合，一起供以后待编码帧做帧间预测的参考。然而，选取的长期参考帧可能蕴含有前景物体，导致背景帧“不洁净”。

为了解决这个难点，融云采纳 LaBGen-P 的办法提取背景帧，这是因为 LaBGen-P 采纳了像素级中值滤波的机制，基于静止检测的抉择机制，抉择静止最小的像素作为背景像素。通过帧间差的运算，可提取到纯背景帧的视频成果。

并且，用 LaBGen-P 的办法提取背景帧，将获取的背景帧退出到长期参考帧列表，岂但能够防止网损和解码谬误会导致解码器呈现谬误，导致误差扩散到后续的 P 帧，而且利用反馈机制与长期参考帧相结合，还有助于修复失落的视频数据。

试验表明，和原始没有退出背景帧的 OpenH264 编码器相比，可将规范测试集中的测试视频

CiscoVT2people_320x192_12fps.yuv，从原始的 56KB 缩小到 54KB。

感兴趣区域的视频压缩技术钻研模型及实际摸索

不同的场景人们的关注重点会有所不同。仍以智慧交通为例，交警对于违章车辆的关注点是车牌号，车牌号是否清晰，将间接影响执法证据的收集是否无效。因而，在带宽无限的状况下，确保趣味关注区域的品质是视频压缩技术的要害。

传统编码方法致力于对图像进行去相干解决，这种办法尽管能够达到去除信息冗余度的成果，然而疏忽了视觉冗余。因而，在最新钻研中，典型做法是，通过对视频进行指标检测来获取感兴趣区域，再对感兴趣区域调配更多的码率，从而进步该区域的编码品质。图 3 即为典型的采纳指标检测技术检测到的感兴趣区域，并进行码率调配的成果，感兴趣区域的编码品质失去保障。

图 3 典型的基于指标检测码率调配成果

如何向感兴趣区域调配更多的码率，黄震坤别离向开发者介绍了学术界代表武汉大学的实践钻研和产业界代表融云的摸索实际。

武汉大学在 2021 年提出了基于博弈论的码率调配计划模型，具体内容包含：

感兴趣区域编码品质为领导者，非感兴趣区域的编码品质为跟随者；

在设定的指标码率下，领导者决定感兴趣区域调配的码率，而跟随者决定非感兴趣区域的调配的码率；

对于感兴趣区域来说，它的效用不仅取决于本身，而且影响到整个图像的编码品质；

非感兴趣区域只能利用余下的码率达到最优的效用。

而融云的感兴趣区域的视频编码方案是，将静止区域检测和基于博弈论码率调配计划相结合，整合为基于场景的感兴趣区域检测和码率调配计划。这一计划的特点次要体现在训练不同的 yolo 模型，采纳同一个预训练模型 yolo，训练不同的场景。

图 4 融云感兴趣区域视频编码方案

具体地说，针对人的视频采纳训练好的基于人的指标检测模型，针对车的视频采纳训练好的基于车的指标检测模型。其中静止检测的办法选用 Vibe，为每个像素点建设一个样本背景模型（背景模型中蕴含 N 个样本值），计算待分类像素与背景模型的类似度，如果类似，则分类为背景。

图 5 指标和静止检测联合的感兴趣区域提取成果

通过试验能够看出，提取了感兴趣区域之后，采纳基于博弈论的办法调配感兴趣区域和非感兴趣区域的码率，最终在无限带宽的状况下，使得感兴趣区域的编码品质取得进步，整体的编码品质也损失不大。具体成果见图 6 所示，人脸局部的量化系数比背景区域的量化系数要小，在带宽受限的状况下，可能保留人脸局部的细节。

图 6 基于感兴趣区域的码率调配成果

视频压缩技术的最新钻研和利用前景

目前在视频压缩的钻研方面，次要是基于人工智能的深度学习技术和端到端的视频压缩框架。

深度学习技术替换混合编码框架模块，可用于码率调配、块划分以及帧内预测和帧间预测。以帧间预测为例，试验结果表明，与 HEVC 相比，基于深度学习所提出的办法在 low delay P 配置下，能达到均匀 1.7%（最高为 8.6%）的码率缩小。端到端的视频压缩框架最新研究成果是对现有深度学习视频压缩，只能利用多数的参考帧进行压缩的问题, 钻研人员提出了反复自编码器和反复概率预计模型。

黄震坤介绍，这些技术目前都尚处于十分前沿的钻研阶段，但领有着非常广阔的利用前景：首先，采纳深度学习网络替换视频压缩的混合编码框架，能够进步编码效率，在 WebRTC 中具备重要的利用价值；其次，深度强化学习网络对码率进行调配，将改善在应用 WebRTC 视频传输中的卡顿景象；第三，基于深度学习的带宽预计模型也将比传统的带宽预计办法更有劣势。

结语

在实时音视频畛域，视频压缩是十分重要的技术。随着 5G 基础设施的欠缺，新的视频利用场景不断涌现，视频压缩技术也在迭代。为了确保视频高质量和高传输效率，视频压缩技术要思考存储、编解码、算力和带宽等因素在内的总成本，要在画质、码率和性能之间做均衡。随着 5G 基础设施的欠缺，新的视频利用场景不断涌现，视频压缩技术也会一直迭代翻新。而融云将深度参加其中，引领倒退！