关于音视频:会议更流畅表情更生动视频生成编码-VS-国际最新-VVC-标准

阿里云视频云的规范与实现团队与香港城市大学联合开发了基于 AI 生成的人脸视频压缩体系，相比于 VVC 规范，两者品质相当时能够获得 40%-65% 的码率节俭，旨在用最前沿的技术，普惠视频通话、视频会议、在线教育等重要应用领域。

作者|王钊、叶琰、王诗淇

审校| 泰一

https://www.youku.com/video/X…

继线上购物、线上领取后，在线教育、在线办公、在线互娱也流行起来，丰盛着咱们的日常工作生存，其中一大功臣 —— 视频，是次要的推动力。整个社会的大趋势在走向内容视频化，交互线上化。视频云业务成为云业务中最煊赫一时的版块，云端一体发明了更低成本、更低门槛、更强体验、全民共享的技术普惠能力。钉钉也成为一种新的工作学习形式，通过视频会议帮忙亿万人解决异地工作的问题，帮忙亿万中小学生解决在家上课的问题。

不论是视频会议还是其它视频场景，视频压缩都是最根本也是最外围的能力。 国内 ISO/IEC 与 ITU-T 规范组制订的一代代视频压缩规范，如 H.264/AVC (2003)，H.265/HEVC (2013) 等，代表了视频压缩能力的每一次重大倒退。在 2020 年，最新的国内视频压缩规范 H.266/VVC 正式实现制订，相比于 H.265/HEVC，能够进步一倍压缩率，相比于 H.264/AVC，能够进步四倍压缩率。

AI 技术的衰亡也在向宽泛的应用领域发动挑战。其中，号称“万物皆可生成”的 GAN（反抗生成网络 ) 则被一些互联网科技巨头公司尝试用于会议视频压缩上。2020 年，Facebook 与 Nvidia 均公布了基于生成的会议视频压缩办法，报告显示能够获得显著优于 H.264/AVC 的压缩效率。

明天，阿里云视频云的规范与实现团队通过和香港城市大学的严密单干，也推出了基于 AI 生成的会议视频压缩零碎，相比于最新的 VVC 规范，在实验室测试场景中，雷同的人眼观看品质下能够节俭 40%-65% 的码率。VVC 曾经代表着业界最先进的视频压缩能力，而咱们零碎相比于 VVC 所显示的技术劣势则意味着咱们无望能够在不久的未来大幅度拉开钉钉视频会议和竞品零碎之间的技术差距，用一半的带宽开雷同品质的钉钉视频会议！

传统主观品质评估指标如 PSNR、SSIM 等依赖于像素级的失真计算，并不适用于生成工作的失真评估。DISTS 指标（PAMI2020[1]）和 LPISP 指标（CVPR2018[2] ) 是两个近年来品质评估畛域的顶级文章，它们通过深度特色来度量解码图像与原始图像的类似度，能够更好地针对基于 GAN 的视频压缩场景进行品质评估，因而它们与人眼主观品质评测的相关度远高于 PSNR 和 SSIM 这些传统指标。

当咱们视频云的基于 AI 生成的会议视频压缩零碎与 VVC 参考软件应用雷同的码率时，视频云生成压缩零碎的解码视频相比于 VVC 能够取得 40%-65% 的品质晋升。也就是说，在雷同的带宽下，用户能够享受到更加清晰、活泼的画质。

在 DISTS 主观指标相当时，视频云的生成压缩零碎与 VVC 对比方顶部视频所示。通过观察比照视频成果能够看到，视频云的基于 AI 生成的压缩零碎与 VVC 相比有大幅的带宽老本升高（只用 1/3 左右的带宽），同时在视频清晰度和主观品质上能够获得显著劣势。

因为 VVC 是基于传统视频压缩框架，因而在低码率下容易呈现视频模糊不清以及块效应等主观品质问题，而视频云的生成压缩零碎则能够在更低码率下仍然很好地放弃面部细节和五官清晰度。在码率 / 带宽相当时，视频云的生成压缩零碎与 VVC 编码比照视频如下，相比于 VVC 画面清晰度和主观品质的劣势更是显著，面部表情栩栩如生。

https://www.youku.com/video/X…

咱们提出的基于 AI 生成的视频云会议视频压缩零碎的编码端蕴含两局部：压缩源图像的 VVC 编码器和用于提取其余图像帧的脸部静止信息的脸部探测器。首先，通过对源图像在 VVC 编码器中在肯定的量化步长下进行压缩，并传输相应的比特流到解码端。其次，在脸部探测器的帮忙下咱们能够进一步提取后续其余图像帧的关键点和雅可比矩阵，用于示意这些图像帧的脸部静止信息。这些脸部关键点和雅可比矩阵进行帧间残差预测和算术编码，实现压缩并传输到解码端。

解码端首先解码出源图像，而后解码出待生成帧对应的关键点与雅可比矩阵。解码端的生成模型会以源图像、关键点和雅可比矩阵作为输出，对关键点对应的高维空间进行矩阵变换，并作用于源图像提出的高维特色图上，从而输入最终的生成图像。下图给出了一个可视化示例。

咱们对 30 集体脸视频 (上图) 进行了 VVC 编码与基于 AI 生成的视频压缩比照。VVC 编码器在低提早模式 (Low-delay B) 下应用量化参数 (QP) 32, 37, 42, 47。视频云的基于 AI 的生成压缩办法同样测试了 4 个不同的码率点。测试集上的均匀编码品质与码率如下表所示。

表 1 视频云的生成压缩零碎与 VVC 的压缩性能比照，DISTS 与 LPIPS 数值越低示意品质越高

依据试验后果，能够看到在相当的解码视频品质下，视频云的生成压缩办法相比于 VVC 能够带来 40%-65% 的平均码率节俭，同时这个压缩性能的劣势在低码率场景下更加显著。把品质评分与码率做成相应的失真 – 码率曲线，比照如下：

图 4 视频云的生成压缩计划与 VVC 的压缩效率比照图

在码率相当时，视频云的生成压缩零碎与 VVC 解码视频的主观比照图示例如下：

可见在低码率下 VVC 容易呈现画面含糊的状况，而视频云的生成压缩零碎的清晰度更高。

在解码品质相当时，视频云的生成压缩零碎与 VVC 解码视频的码率比照如下：

能够看到，在压缩品质相当时，视频云的生成压缩零碎相比于国内最新 VVC 规范可将压缩率进步 40%-65%。这不仅极大升高了相干视频利用的带宽老本，还能够让用户享受到更活泼、更晦涩的视频体验！

参考文献：

[1] Ding, Keyan, et al. “Image Quality Assessment: Unifying Structure and Texture Similarity.” IEEE transactions on pattern analysis and machine intelligence.

[2] Zhang, Richard, et al. “The unreasonable effectiveness of deep features as a perceptual metric.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.

「视频云技术」你最值得关注的音视频技术公众号，每周推送来自阿里云一线的实际技术文章，在这里与音视频畛域一流工程师交换切磋。

关于音视频:会议更流畅表情更生动视频生成编码-VS-国际最新-VVC-标准

基于 AI 生成的人脸视频压缩

压缩零碎关键技术

与 VVC 编码试验比照