关于阿里云:拥抱智能AI-视频编码技术的新探索

随着视频与交互在日常生活中的作用日益突显，愈发多样的视频场景与一直进步的视觉谋求对视频编码提出更高的挑战。相较于人们手工设计的多种视频编码技术，AI 编码能够从大数据中自我学习到更宽泛的信号外在编码法则。工业界与学术界发力推动 AI 视频编码标准并进行新框架的摸索。

阿里云视频云在 JVET 面向人眼的视频编码标准和 MPEG 面向机器视觉的视频编码标准上均做出重要奉献，对规范倒退产生强有力的推动。联合产业需要强劲的视频会议、视频直播等场景，阿里云视频云还开发了 AI 生成式压缩零碎，在等同品质下比 VVC 节俭 2-3 倍码率，实现真正的超低码率视频通信。

在 LiveVideoStackCon 2021 北京峰会，阿里云智能视频云算法专家王钊，为大家解读阿里云在 AI 视频编码技术的新摸索。

文 | 王钊

整顿 | LiveVideoStack

大家好，我是王钊，就任于阿里云视频云，明天的分享主题是“拥抱智能，AI 视频编码技术的新摸索”。次要想和大家介绍阿里云视频云的两个前沿工作。

分享包含四局部，背景与动机、人物视频生成编码、机器视觉编码和将来瞻望。

我将从人眼视觉、机器视觉两方面延长介绍阿里云视频云摸索 AI 视频编码技术的背景与动机。

视频自身的数据量十分大，一张 4K 图像原始大小为 24.3MB、4K 未压缩视频的带宽需要约为 6Gbps、一个超清摄像头每天产生的原始视频高达 63TB，只有进行了视频编码才能够传输、存储。

随着时代的倒退，智能安防、主动驾驶、智慧城市、工业互联网等场景中的视频也能够被机器接管、感知、了解。

以主动驾驶为例，一辆车次要具备的零碎或设施包含摄像头零碎（检测后方物体）、夜视红外、雷达测距器、惯性传感器、GPS 定位器及激光雷达（360° 进行扫描），这些都由机器采集图像和视频，再交付给机器进行剖析、发现并解决问题、欠缺性能。

机器在某些维度上的能力优于人类，比方观测精度、感知灵敏度、工作强度耐受性（机器能够全天候运行）、客观性、可量化性。

据 Cisco 统计，以机器视觉为主的从机器到机器的数据传输将占据寰球数据传输的 50%，这是十分大的量。

无论是人眼视觉还是机器视觉，视频编码的原理都是一样的，即依附视频信号自身存在的相关性：一幅图像中相邻的像素值靠近，这是空域相关性；相邻图像的像素值靠近，这是时域相关性；如果将像素从空域变换为频域，其中也存在相关性。这就是视频压缩的三个最根本相关性，空域冗余、时域冗余，信息熵冗余，由此诞生了视频编解码的三个次要模块，帧内预测、帧间预测，变换 / 熵编码。

冗余打消自身是无损的，但视频压缩会呈现失真，失真是如何造成的呢？这是为了进一步提高压缩率，把视频信息变换到某个域上，例如传统编码通常变换到频域，再依照其重要性进行优先级排序，把优先级低的如高频信息间接抛弃或量化操作进行打消从而大幅度提高压缩率，所以是量化在进步压缩率的同时带来了失真。

综上，视频压缩依附两个维度，一是相关性的打消，不会造成失真。二是将信息变换到某个域上进行优先级排序，对优先级低的信息进行抛弃、打消或量化。

基于以上视频压缩原理，在过来的 50 年中，寰球范畴内的视频编解码工作人员推出了一代又一代的视频规范，尽管规范一代一代更新，但都是基于划分、预测、变换、量化、熵编码的框架没有变过来年 JVET 社区定稿了 VVC 规范，在 VVC 之后也致力于传统编码和神经网络编码的两方面摸索。

国内在定稿了 AVS3 之后，也在深挖传统编码和神经网络编码以心愿进一步提高视频编码效率。在机器视觉畛域，MPEG 成立了面向机器的视频编码工作组（VCM），国内成立了面向机器智能的数据编码工作组（DCM）。

以 VVC 为例，去年制订的 VVC 比照 2013 年颁布的 HEVC 规范，尽管压缩性能晋升一倍，但深入研究每个模块中模式数量的变动，会发现帧内预测、帧间预测及变换都减少了很多模式，这意味着均匀每个模式可能带来的压缩性能增益变得更小。

每个编码模式都是由视频编解码专家依据本身所学及了解对视频信号进行数学化表白，每个模式的实质都是数学模型，而人们把握的数学模型都很简略，比方线性模型、指数函数、对数函数、多项式等。模型的参数量不会很多，个别是几个，最多是几十个。压缩性能晋升愈发艰难的起因也在此，人们可能法则化总结的数学模型绝对简略，表达能力无限，但视频外在的规律性却是有限的。

从模型角度，基于人工智能的神经网络模型能够通过更多的参数一直进步数学表达能力。数学畛域已严格证实神经网络可能表白任意函数空间，只有参数足够，表达能力就会越来越强。手动设置的参数只有几个或几十个，但神经网络设计的模型中参数能够多达几百万个，甚至 Google 推出了亿级参数的超大模型。

从下限来看，基于 AI 编码的视频压缩肯定会比基于传统编码的视频压缩有着更高的性能下限。

从视频信号自身的冗余性角度，上文提到传统的视频编解码在过来的五十年里都在打消空域冗余、时域冗余和信息熵冗余。

除了这三个冗余，其实还有其它的冗余对视频压缩来说有很大的性能晋升空间。首先是构造冗余，右下方的两朵花很类似，在编码中，如果曾经编码好第一朵花，那么编码第二朵花时的很多信息就能够从第一朵花的编码中推导进去，无需齐全编码。第二个是先验常识冗余，见右上图，如果用手遮住右半局部人脸，只留左半局部，因为人脸靠近对称，咱们仍然能够设想出被遮住的局部，这是因为人们的脑海里有了人脸近似对称的先验常识。那么也能够让机器记忆先验常识，就无需把信息从编码端编码到解码端。

所以对于视频压缩来讲，构造冗余和先验常识冗余也很重要，传统编码并不是不能利用这两者，只是人工智能和神经网络在额定利用构造冗余和先验常识冗余上更高效，更熟能生巧。

首先看一个简略的两帧编码问题，编码端先将第一张图像的信息通知解码端，解码端曾经承受了第一张图像并且解码进去，咱们将其作为参考帧。此时，如何压缩以后帧？

（右上两图）在传统编码中，办法是将以后图像分为一个个图像块，每个图像块在参考帧中找到最类似的参考块，以后图像块与参考块之间的绝对位移称为静止矢量，这样就能够基于参考块预测以后块的预测值，拿到以后图像最可能的预测帧，再将预测帧和以后帧的差值编码过来就能够了。

绝对于图像压缩来说，视频编码的效率十分高，因为视频编码的时域预测、时域相关性十分强。但这个码率也不会很低，因为要编码的货色很多，比方图像块划分的划分信息，每个图像块的静止信息、残差值等。所以压缩效率尽管相比图像压缩高很多，但也达不到超低码率。

为了实现超低码率压缩，咱们提出了 AI 生成压缩办法。（右下两图）不再将整张图像划分为一个个的图像块，而是将它当做整体，将整张图像通过神经网络转换至某种特色域，在特色域上提取多数关键点，只需将关键点传输到解码端，解码端收到后并基于参考帧就可能驱动生成以后帧的图像。

其中，关键点数目可变，例如实例中有十个点，所以每幅图像只需传输几十个数值即可，码率高出传统编码方式十分多。

对于整个视频来说，能够先用传统编码传输第一幅图像，再用 AI 生成编码传输接下来的图像，在编码端提取每一帧的关键点传输到解码端。解码端如何生成这一帧？首先提取参考帧关键点将其和以后帧解码的关键点一起送入神经网络中，失去特色域上的稠密运动场。

两幅稠密运动场都会被送入 Dense motion Net 中失去密集运动场，并同时失去一张遮挡图。参考帧、密集运动场和遮挡图再一起被送入生成器中，从而生成以后帧。

这是关键点在特色域的可视化后果。

以第一行的图像为例，第一副是参考图像及其关键点，第二副是以后须要编码的图像及其关键点，两头十副带色彩的图像是每个关键点在特色域上反映的静止信息。其中第三副反映的是整体人脸侧面的静止状况，前面几副可能反映头部外侧的静止状况，凑近右侧的几副可能反映下巴或嘴唇的静止状况。最初，十副特色图上的运动场会交融在一起失去密集的运动场。

这是在整个驱动生成的 pipeline 过程中每个环节的主观展现。

第一列是参考帧，第二列是以后帧，第三列是编码过来关键点之后在解码第一步首先生成的稠密运动场，在目前的案例中，稠密运动场对每个图像来说应用的是 4 图片 4 矩阵，图中能够看到有 4 图片 4 个方格，这是一个稠密的静止图。将稠密运动场作用在参考帧上就能够失去第四列中以后图像的简图，能够看到第四列人脸的地位和静止曾经十分靠近以后帧，只是在纹理细节上还存在差距。接着，稠密运动场通过更加简单的静止模型后失去密集运动场，再从新将密集运动场作用到简图上失去第六列中运动场作用后的更精密的图像。最初将遮挡图作用到运动场后的图失去以后帧的生成图。

在人物讲话的数据集上对 AI 生成压缩计划进行测试，可能看到以下主观上的比照。

右边两列视频是最新的 VVC 参考软件编码的后果，左边两列是 AI 生成压缩计划编码的后果，咱们的码率略低于 VVC，但能显著比照发现画面质量远远好于 VVC。VVC 自身的块效应、含糊度都十分重大，而 AI 生成压缩计划无论是在头发、眼睛、眉毛上的细节图都更优，在整个头部静止的晦涩度、表情的天然度方面也有显著晋升。

这是在码率靠近的状况下的品质比照，能够说曾经达到了代差级的品质晋升。

在更低的码率场景下应用 AI 生成压缩计划会有什么成果呢？

试验中，VVC 码率不变，AI 生成压缩计划的码率变为 VVC 的 1/3，结果显示生成品质仍然优于 VVC 的画面质量。

这里的测试视频分辨率是 256 图片 256，对于这个分辨率，AI 生成压缩计划只需应用 3~5k 的码率就能够实现用户之间的视频通话。由此能够推断，在弱网甚至是超弱网环境下，AI 生成压缩计划仍然可能反对用户进行音视频通话。

咱们在机器视觉编码这块工作的最后动机是，当初的视频利用场景中，视频的编解码、视频的解决和机器视觉的剖析都是离开的，而咱们心愿在将来可能将这几点联合，造成对立的零碎进行端到端的优化和训练。

咱们抉择了物体检测工作，例如这张图像（右上图），可能来源于监控摄像头或主动汽车摄像头，物体检测就是判断图像中有哪些物体，这里的物体包含两个信息，物体定位 (图中的方框) 和类别辨认（判断是行人、车辆等物体类别）。

抉择物体检测工作的起因在于物体检测在当代机器视觉畛域中，是利用最广需要最大的技术，其次它是泛滥机器视觉工作的根底，只有先实现了物体检测，能力进行姿势辨认，例如只有先检测出“物体”是人，能力进一步判断他是摔倒或是行走等其余行为，在姿势辨认实现后能力持续做事件剖析。

对于一张输出图像来说，在编码端会有神经网络将图像从像素域转换到多个特色图，将特色图通过熵编码传输到解码端，解码端基于特色图进行解析，在重构出图像的同时实现机器视觉检测工作。

咱们在编码端提出了创新性的 Inverse-bottleneck 构造（右图），网络模型是先宽后窄的设计。机器视觉畛域的网络模型个别随着层数的加深通道越来越多，这样每一层才会更密集，视觉工作精度更高。但对于压缩来说不行，压缩是为了降低码率，不可能传输太多的数据，那么如何对立压缩和视觉呢？

咱们发现，在特色通道图之间存在大量的、高度的冗余，而这些冗余信息是能够被压缩的，所以咱们将模型设计为先宽后窄的反瓶颈构造，在根本不影响机器视觉检测精度的前提下大大提高压缩效率。

因为整个零碎既要做压缩工作又要做机器视觉辨认工作，咱们把人眼视觉和机器视觉的损失放在一起造成了联结损失函数进行整体优化，并提出了迭代搜寻来确定各损失项之间的权重关系。

在 MPEG-VCM 规范组上，寰球很多公司进行提案。

咱们的机器视觉压缩计划比照最新的 VVC 规范，在 COCO 数据集上的测试结果显示压缩性能晋升了 41.74%，在近几次的 MPEG-VCM 会议上，咱们的提案性能都放弃第一名。

这是性能比照的几个例子。

左上方图像，拍摄环境光线很暗，对于机器来说须要辨认图像中有多少人，最右边是 ground truth，它会框出人像地位，并标注“person“，预测概率是 100%。VVC 和咱们的计划均应用雷同的码率来压缩这样一张图像，解码端各自失去失真后的解码图像。

在 VVC 的解码图像上进行辨认，没有检测出穿红色短袖的男生，而咱们的计划可能检测出这个男生，并框出地位，标注“person”，预测概率是 98%，尽管没有达到 100%，但相比 VVC，曾经晋升了很多。

右下角的 ground truth 框出了六个人，同样在雷同的码率下压缩这张图像，在 VVC 的解码图像上只能辨认出一个人（白框），而咱们的计划能够辨认出四个人，比照 VVC 有十分大的性能晋升。

首先在人物视频编码方面，咱们的指标是实现多人、多物、多静止的简单场景下的超低码率视频通话及视频会议。

在视觉剖析工作方面，咱们的指标是实现可拆散的多任务编码，编码端单通道、解码端多分支来实现多任务的对立零碎。

以上是本次的分享内容，谢谢！

「视频云技术」你最值得关注的音视频技术公众号，每周推送来自阿里云一线的实际技术文章，在这里与音视频畛域一流工程师交换切磋。公众号后盾回复【技术】可退出阿里云视频云产品技术交换群，和业内大咖一起探讨音视频技术，获取更多行业最新信息。

关于阿里云:拥抱智能AI-视频编码技术的新探索

1. 背景与动机

2. 人物视频生成编码

3. 机器视觉编码

4. 将来与瞻望