关于人工智能:低成本更清晰下一代视频编码技术将如何实现这一目标

摘要： 下一代的视频编码技术仍是采纳传统的演进思路——在经典架构上做模块加强。

随着短视频、直播的衰亡，在线视频畛域用户应用时长已超过社交畛域，而 5G 时代视频在互联网的流量占比将会增长至 85~90%。面对用户对视频画质要求的一直进步，如何在无限带宽的网络环境中，实现更清晰、更低成本的视频信号传输，始终是泛滥视频利用企业关怀的问题。

来自华为云的云视频服务的产品经理左雯，为大家分享华为云视频对下一代视频编码技术倒退的想法和利用成绩。分享的主题包含三个局部，首先是华为云视频对视频行业发展趋势的一些认识，以及这些趋势对下一代视频编码技术提出的挑战；其次从规范角度来介绍下一代视频编码技术；最初从云视频利用角度来具体介绍华为云在视频编码技术上的一些实际和摸索，心愿能给大家带来启发。

5G、云、AI 曾经成为 ICT 行业甚至是整个社会的发展趋势，促使整个视频行业需要和技术一直演进，推动整个视频行业一直降级。视频生命周期的每个环节都在更新降级，包含视频生产、视频解决、视频传输和视频生产。

视频生产：多源数据的采集，包含超高清、VR、自在视角、3D 建模和视频渲染
视频解决：基于 AI 让视频解决更实时、智能和精确，包含各种编码方式
视频传输：超低时延的传输，云边协同等等
视频生产：智能终端的深度联合提供视频服务的最佳体验

视频行业实质是对媒体数据的解决，背地是算力、存储、网络、AI 的撑持，同时视频行业又推动着 5G、云、AI 的一直前行，相辅相成！

视频演进带动了算力、存储、带宽需要的大幅增长。简略来看，视频分辨率越来越高，从高清到超高清再到 8K/VR。算力增长 24 倍，存储增长 12 倍，带宽增长 20 倍。这些需要通过云，也只有通过云能力失去很好的满足，实现高质量的视频体验。云原生视频是行业趋势，视频将成为云的根底服务能力。

后面说的是行业的整体趋势，上面说一下具体场景。互联网视频倒退已经验了两个阶段，第一阶段从 08 年到 13 年，以长视频 VOD、点播观看为热点；第二阶段，从 13 年到 19 年，也就是去年，其实还在连续，以直播、短视频为热点；第三阶段，也就是下一代，会以什么为热点？咱们认为因为 5G、云、AI 的推动，视频将进入实时互动、VR/AR 时代。

视频新玩法提出新诉求，互动视频形式从 IM 向实时音视频过渡。直播连麦、主播 PK、直播带货、视频散发形式的降级，百毫秒级超低时延下一代视频 RTC 成为趋势；VR/AR，360 度视角沉迷式体验反动，用户从看视频向玩视频过渡，体验晋升的同时，视频传输能力从兆级向十兆甚至百兆级单流带宽；云游戏带来游戏行业改革，十毫秒级别时延要求，推动媒体解决能力从云上向边缘迁徙。

RTC 实时音视频会成为 5G 时代基础设施的外围控制点，RTC 利用很宽泛，它的市场年增长率超过 30%，而且这项技术不仅能赋能直播、游戏等泛娱乐行业，更能在在线医疗、教育、金融等大视频行业浸透。

现有的实时音视频市场正处于暴发期，玩家很多，但因为它是非云厂商，难以继续倒退。起因之一是它的技术门槛比拟高，特地是像音视频编码或者整个 RTC 网络的构建，另一点是目前各家均采纳公有协定的形式接入，各家互通、客户的自在切换都比拟艰难。在 RTC 业务产品上，咱们认为音视频编码解决将是各家构建技术壁垒和性能差异化竞争力的要害之一。

另外一个利用场景就是 Cloud VR，咱们始终认为 VR 是 5G 技术倒退下的要害场景。VR 倒退是一波三折的，但在目前来看，之前碰到的一些问题正在逐步改善。从终端的角度来看，之前的终端很贵，然而目前千元终端机曾经逐步降临，而且体验也会越来越好。除了设施终端，VR 此前还面临内容缺失的重大问题，而 VR 直播很大水平上缓解了内容不足的问题。

尽管窘境在逐渐改善，但 VR 目前还面临着新的问题。互联网 VR 业务很难造成商业闭环，次要起因在于 VR 业务带来了支出减少，但与此同时带宽成本增加更多，VR 谋求的高质量体验须要通过更高带宽来实现，高带宽势必会带来高老本，而高老本就会导致商业无奈闭环。

在这样的前提下，很多玩家都会通过升高体验来发展 VR，比如说内容采纳 4K 以下，码率采纳 10 兆以下，终端采纳卡片机来体验 VR，尽管这样能够将 VR 的业务买通，但体验成果是很差的，也导致付费用户非常少，产业倒退比拟迟缓。所以在 VR 的倒退上，咱们认为通过视频压缩编码以升高带宽是要害，是能够帮忙实现商业闭环的一个要害因素。

从后面讲述视频行业趋势不难看出，用户体验降级、视频产业降级、商业老本等驱动着视频全方位降级，分辨率从高清到 8K，帧频从 30 帧到 120 帧，视场角从不到 90 度到 360 度，从 SDR 到 HDR 等，这些参数降级推动着视频压缩编码技术一直演进，谋求压缩比是永恒不变的！

另外，前事不忘; 后事之师，HEVC/H.265，其实是很优良的编码技术，但因为后期不敌对的专利政策，市场占有率始终不高于 13%。还好目前有所恶化！整个行业急需压缩比更高、生态更欠缺、专利政策更正当的视频编码技术。

晋升压缩比有两条路线，这也是各厂商正在做的：

规范技术路线，作为根底内核，H.266、AV1、AVS3、AI 编码

非标技术路线，依赖根底规范，联合人眼感知特色，感知编码、内容编码、ROI 编码

上面将从这两个角度来介绍华为云视频在下一代视频编码技术上的一些工作。这些技术得益于华为 2012 媒体技术院全力支持。

从上图能够看出，下一代的视频编码标准大略分为三个营垒或者三个类型：

国际标准：由 MPEG、VVC 联结推动的像 VVC/H.266 还有 EVC

国内规范：国内规范组织正在推出或曾经推出的 AVS3 的 phase1、AVS3 的 phase2，两者次要差异在于 AVS3 的第 1 阶段规范瞄准 H.266，第二阶段的规范则是瞄准将来, 可能会退出一些智能编码的技术

谷歌牵头的 AOM 联盟推出的 AV1，是一个开源技术

下一代的视频编码技术仍是采纳传统的演进思路——在经典架构上做模块加强。在 H.266CFP 时，华为联结其余几家公司提了 P41 提案，在 PSNR 和 MOS 评估方面都是排名第一，这个提案也是前面的根底。华为在 VVC 里的外围专利数量已属于第一营垒，这是一个了不起的成就，也阐明了国内的视频压缩编码根底钻研实际上不弱于欧美传统的公司。

以 VVC 为例，对其新增的加强工具进行盘点。纵轴是每个工具的压缩收益，横轴是每个工具编解码复杂度，编码复杂度的权重可能会更高一点。VVC 在块划分、帧内预测、帧间预测、熵编码、变换量化等多个模块上进行了加强，其中次要的加强是帧内、帧间预测、块划分、滤波的加强以及机器学习工具演进带来的收益。VVC 临时没有引入深度学习这一类编码工具。

图中还有三个用红圈标出来的工具，这是 VVC 中公认 trade off 比拟好的三个工具点。蓝色的是 ALF，这是大家比拟相熟的自适应环路滤波，其实它在 H.265 的时代就曾经有了，H.266 将它引入规范中；绿色的是仿射静止预测，这个次要是由华为提出的；橙色的是量化技术。

EVC 规范的提出某种程度是因为 H.265/H.266 的专利政策不敌对，有可能导致 H.266 的落地都比拟艰难。MPEG 心愿能通过一个新的专利敌对的规范来推动落地，同时也促使扭转 H.266、H.265 的专利受权政策。EVC 由华为、三星、高通等独特提出推动，华为在这外面退出了很多技术。在规范立项期间望它比 H.265 的压缩性能晋升 20%，实测在 4K 娱乐视频上相比 H.265 压缩效率晋升达 30% 以上，目前曾经进入了最终的规范投票阶段。

AVS3 是国内提出的规范，它的 phase1 是瞄准 H.266 规范的，并且在 2019 年 3 月份就曾经制订实现率先推出，在 2019 年 9 月份，华为海思也同步推出了 AVS3 8K 的解码芯片，AVS3 绝对 H.265 性能晋升了 20% 以上，并且针对娱乐视频和监控视频做了很多针对性的设计，性能上还可进一步晋升。

H.266 理论曾经根本定稿，它的压缩效率在 4K 视频场景下相较于 H.265 能晋升 40% 左右，其解码复杂度绝对晋升 60%，目前看最大的问题还是专利政策不够通明，而且专利费可能比拟高，推广节奏可能绝对比较慢。

EVC 也根本定稿，而且其压缩效率也能晋升 30% 左右，解码复杂度绝对 H.265 减少 60%。其专利免费可能绝对比拟低，第二是他的专利免费比拟通明和明确，目前次要依附三星、华为、高通来做产业的推动和生态的构建。

AVS3 在 2019 年 3 月份推出，在性能上还是有保障的，压缩效率可能晋升 25%，复杂度减少绝对较低，其专利免费也是比拟低的，正通过互联网等行业做产业的推动和生态构建，目前实际上有很多联盟和公司正在做推动，咱们也心愿 AVS3 尽快落地。

表格中没有列举 AV1 的数据，这次要是因为它和其余三个规范不太一样，AV1 开源软件实际上是瞄准商用化去做的，大家也比较清楚其压缩效率和解码复杂度。AV1 有个很大的劣势就是没有专利费，这是 AOM 联盟的承诺。在产业落地方面 AV1 做的很好，生态构建走的较前。

下一代视频编码标准还有一个趋势就是 AI 编码，这一块实际上从 HEVC、VVC 规范制订就有提出，但因为思考计算复杂度以及 AI 硬件普适性，都临时搁置了。但这是个技术趋势。

AI 编码包含两个演进思路：
第一个是全新架构，相似于图像编码，实际上 AI 的图像编码曾经获得了不错的功效，谷歌牵头的 AI 图像编码技术都曾经失去了很好地利用，但针对视频中的利用还在摸索过程中。所谓的全新架构，就是不必传统架构，视频进入黑盒后会得出一个压缩过的视频，这个视频可能没有块划分，也没有各种其余的形式，它的压缩效率会十分高，但这所有还处于钻研的过程中。

另外一个思路是基于经典架构，对每个架构里的模块做加强。例如针对块划分、变换、矢量量化、帧内预测做不同的 AI 网络适应和加强。实际上华为也在做这方面的钻研，将来可能会提出一些 AI 编码方面的论文或提案。并且咱们认为 AI 编码的这两种思路，最终将是交融设计的过程，不会呈互相孤立的状态。

下面简略介绍了下一代视频编码标准技术，上面介绍一下从理论商用及非标角度，介绍一下华为云视频在视频编码技术上的利用和实际。

首先介绍一下华为云视频，华为云视频是从 2017 年开始构建的，目前包含两大类业务，一种是比拟传统的直播、点播、媒体解决以及监控业务，另一种是整个行业正在新晋的服务，比方 RTC、VR/AR 以及超高清直播。华为云视频面向很多的场景，例如娱乐直播、短视频、在线教育、企业直播、4K 直播、4K 制作等等，咱们致力于帮忙行业客户、搭档、开发者、ISV 疾速上线利用，并帮他们构建差异化的竞争力，实现商业闭环。这里须要重点提一下 RTC，RTC 是华为云视频对下一代视频的了解并作出了理论的推动，针对 RTC，咱们重点构建超低时延、音视频品质等差异化竞争力。

3.2.1 视频编码框架

联合明天的主题，上面重点解说华为云视频在视频编码技术上的一些工作。这些技术得力于华为 2012 媒体技术院全力支持。编码内核采纳了一个规范的编码器，相似于后面提到的 H.264、H.265、AVS3、H.266 或者 EVC 这一类，在这个编码内核的根底上，咱们面向不同的场景做了不同的编码技术的优化和实际。比方面向 RTC 实时音视频场景，采纳低时延编码技术；面向 VR 场景，采纳 FOV tile 编码；面向多视角场景，采纳空间云边协同编码；面向监控场景，采纳智能语义编码；面向直播、点播，采纳感知编码和画质加强等；另外，华为云视频借助鲲鹏、昇腾两大专有硬件，减速视频编转码效率。鲲鹏次要面向 CPU 这类计算，昇腾次要面向 AI 方面的减速。

3.1.2 规范编码内核

接下来别离介绍一下视频编码的技术，第一是编码内核，华为云在商用编码器下面也有很多的技术积攒。比如说近几年在 MSU 的大赛上，HW265 编码器间断两年取得多项测评的第 1 名，往年咱们也会向 MSU 推出新的编码器。

3.2.3 高清低码

第二个技术是高清低码，高清低码目前在各个厂商或者商业畛域里是大家比拟默认的技术，也就是说在基于规范编码内核的根底上，能降低码率的同时保障主观品质没有降落，但实际上高清低码实践可行性是现有视频编码是基于香农定理，它的率失真模型都是间断的，然而人眼视觉模型是阶梯性非间断的，在这个阶梯上存在一个降码率的空间。

高清低码个别状况下包含三个模块：
第一是基于人眼 JND 模型，就是说如何找出 JND；
第二是基于 JND 去做感知编码；
第三就是通过感知编码来管制规范编码内核输入，在主观品质不变的状况下大幅降低码率。

华为云视频在这方面做了很多的工作，目前针对不同的利用场景，能达到 30~50% 的码率升高。

高清低码技术当初也走到了一个瓶颈期，原有高清低码的思考仅来源于编码与传输信道，随着 AI 技术的倒退，是否还有进一步的倒退空间？华为提出了一种新的思路：在原有的率失真模型上，退出一个接收端（解码端）复杂度的因子，也就是在发送端被动进化，把它通过时域或者空域的下采样变成一个绝对数据量比拟小的视频，这样做使得编码的码率绝对更低，达到无效降低码率的指标。通过一些辅助信息再加上低码率、低分辨率的编码码流，在接收端通过 AI 技术进行超分、插帧或者是加强，将视频还原，如此整个链路上传输的码率会大幅降落，咱们初步试验发现至多能升高 60% 以上的码率。

3.2.4 超低时延编码

RTC 场景是咱们面向下一代视频产业重点打造的服务能力，RTC 场景下次要是超低时延的编码，咱们提出了一个综合的超低时延计划，比方编码和渲染联结优化、编码的内核以及分层编码和信源信道协同等技术手段，面向不同的实时场景会做不同的组合或者利用，咱们初步试验发现在 1080P 这种场景下进行编码和解码，整体的时延能达到十毫秒级别。

3.2.5 VR FOV 编码

面向 VR 场景，特地是面向 360°场景，咱们提出来 FOV TWS 的编码技术。这个技术原理是将高分辨率的全景视频分片，多个 FOV 的小分片加上一路 4K 的背景流，这样 4K 终端的播放器就能通过相应的视角 FOV 分片和 4K 全景背景流实现 8K VR 全景视频播放，同时还能保障 MTP，不会呈现眩晕感。该技术曾经写入 OMAF 的规范。整体体验上也失去了用户的认可。

3.2.6 智能语义编码

当面向监控场景的时候，咱们提出了一种智能语义的编码，次要通过背景建模加上视频内容和静止剖析，再加上端侧的一些实时超分、插帧来构建智能语义编码的计划。监控场景的画面往往有很多细节，各种机器剖析的识别率不能升高，如果压的太狠，识别率可能就会降落。初步的原型结果显示能做到在人和机器的识别率都不升高的前提下，达到 70% 以上的码率节俭。

3.2.7 空间视频云边协同编码

另外一个技术是空间视频编码，所谓空间视频就是自在视角或多视角，这也是当前技术倒退的一个方向。人们不再满足于一个固定视角视频观看，心愿多视点或者自在视角的观看视频。在空间视频的编解码当中，咱们提出一种云边协同编码，通过这种编码能够在边缘十分短的工夫内按需动静的生成任意时刻的切换流，大幅缩小个别计划中切换流的码率，初步试验发现至多能升高 60% 左右的带宽老本。

3.2.8 AI 视频加强

视频品质、视频码率时视频产业最要害的两个指标。后面讲的技术，不论是规范的技术、还是非标的技术，都是谋求在等同画质的前提下，如何降低码率。
硬币的另一面则是，在等同码率下，如何谋求视频主观体验品质。咱们在这方面也做了很多尝试，依据不同的场景特色，基于云端、终端 AI 能力，从分辨率、帧频动静范畴等维度对视频进行修复、加强和重建。并且思考实在场景中往往是蕴含多种混合失真的等因素，咱们提出一种面向混合失真的多任务视频加强框架，可能很好地适应不同场景和不同需要。

以上内容介绍的是华为云视频在视频编解码上的一些实际和摸索，心愿能带给大家一些启发。谢谢大家！

本文分享自华为云社区《下一代视频编码技术的视频云利用摸索》，原文作者：音视频大管家。

点击关注，第一工夫理解华为云陈腐技术~

1. 视频行业趋势

2. 下一代视频编码技术

2.1 下一代视频编码标准技术

2.2 AI 编码

3. 华为云视频利用和实际

3.1 云视频简介

3.2 视频编码技术