关于前端:淘宝直播火爆的背后阿里做了什么

6次阅读

共计 5349 个字符,预计需要花费 14 分钟才能阅读完成。

简介: 2020 天猫双 11 的直播间里,平台必须在 1 秒内将主播声音、画面和商品信息同步给散布范畴极广的百万级消费者,确保后者取得统一的、实时的、高水平的音视频体验,以及商品交易(尤其是秒杀)的可信度。为了进一步优化消费者体验,升高延时,阿里巴巴非常重视在音视频技术畛域的投入。本文从最新的国内视频规范 VVC(Versatile Video Coding,多功能影像编码)讲起,分享视频直播行业的全景与阿里的翻新,以及达摩院和淘宝团队共同开发的 VVC 编解码器相干工作。

国内视频规范简史

上图显示的是两个重量级国内视频规范组织:国内通信联盟 ITU- T 以及国际标准化组织 ISO/IEC MPEG。这两个巨头从 30 年前就开始做视频规范,到当初曾经是做到第 6 代了。其中这两大巨头联结制订的几款视频规范对国内上视频产业尤其有十分深远的影响。比方 MPEG2,它完满的帮忙视频产业实现从模仿电视到数字电视的重要转型;H264 对业界的奉献就更是显而易见,大家都晓得无论什么终端(电视、手机、电脑)和什么服务(播送,卫星,互联网,视频会议等)基本上全面反对这个规范;H265 对高清超高清视频和 HDR 视频的遍及做出了重要的奉献。最新出炉的第 6 代规范 VVC,除了服务当初已有的利用,升高带宽老本进步用户体验,同时它也能够赋能 5G 下新兴的视频利用,像 AR/VR、360 度全景视频以及超高清的 4K、8K 等。

为什么咱们要这样坚定不移的做 6 代视频规范?每次规范更新换代时,视频产业链须要从服务端内容生产商始终到最初的消费者,包含两头每个环节上买通端到端的生态系统,每一个环节都要去做更新。因为视频规范更新换代须要付出这么大的致力,所以咱们对每一代新规范都会有一个根本的要求:雷同的视频品质下编码效率翻倍,也就是说相比上一代,新规范的带宽节俭必须达到 50%。

先来看一下 VVC 规范会常常碰到的一些词:

  • VVC:Versatile Video Coding,Versatinle 指灵便多功能的个性
  • VTM:测试模型参考软件平台
  • JVET:ITU- T 和 ISO/IEC MPEG 的联结委员会
  • H.266:VVC 是两个国际标准组织的双标,H.266 是 VVC 在 ITU- T 的规范编号

  • 历时近 3 年的 pre-standard 技术开发及积攒工作,JEM(Joint Exploration Model)参考软件平台。
  • 雷同 PSNR 指标下,JEM-7.0 绝对 HEVC 的参考平台 HM 达到 34% 的码率节俭,为正式标准化提供了重要的技术撑持。
  • 同时,360Lib 参考软件平台为全景视频的解决、压缩和品质评估提供了全套残缺的工作流程。

在 VVC 正式标准化还没开始之前,国际标准组织和成员公司就进行了多年的技术预研和技术积攒。从上图能够看到,从 2015 年初开始,JVET 通过了历时两年半的编码技术预研,搭建并欠缺了 JEM 参考软件平台;到 2017 年中,在雷同的 PSNR 的指标下,JEM 绝对 HEVC 曾经能够达到 34% 的码率节俭,为正式开始制订下一代视频规范提供了无力的技术撑持和性能证实。

另外,在 JVET 积攒下一代编码技术的预研过程中,因为 AR/VR 等新兴利用的影响,JVET 也对 360 度全景视频进行了充沛钻研。为此,JVET 建设了 360Lib 参考软件平台,和 JEM 相结合,为全景视频的解决,压缩以及品质评估提供了一套残缺的工作流程和性能剖析的能力。2017 年 10 月,VVC 在 JEM 和 360Lib 基本上成熟时,ITU- T 和 ISO/IECMPEG 这两个规范组织发表了联结技术征集书,外面包含 3 中次要视频格式:规范动静 SDR 视频(支流视频格式)、高动静 HDR 视频,以及 360 全景视频。这也是 6 代规范以来第一个思考到多种视频格式的技术征集书。

2018 年 4 月,全世界一共有 32 个单位提交了 23 份征求书的响应,在雷同 PSNR 的状况下,最佳的响应提供了 40% 以上的码率节俭,从此 VVC 标准化正式启程。2018 年 4 月至 2020 年的 7 月,通过两年多的致力,VVC 的第一版正式定稿。

达摩院视频规范团队在 2019 年年初时候开始参加 VVC 的规范制订,历时一年半,提交了很多技术提案被驳回到 VVC 规范中,为 VVC 规范的制订做出了重要的奉献。

下面图中的蓝色局部代表 VVC 参考软件平台 VTM-1.0 到 VTM-9.0 的性能演进,以及 VVC 绝对 HEVC 在高清超高清视频上的性能增益。咱们能够看到,VVC 两年多的标准化过程次要分成两个阶段:前半阶段次要重视减少先进编码工具来进步 VVC 的性能增益,因而在 VVC 标准化的第一年期间压缩性能迅速回升;在后半阶段,规范委员会 JVET 更加重视 VVC 规范设计上的细化工作,重视各个 VVC 编码工具之间的设计交融,保障低功耗高效的软硬件实现,因而在 VVC 标准化的第二年中,咱们也能够看到 VVC 的性能增益逐步趋于稳定。

另外上图还提供了 VVC 参考软件平台 VTM-1.0 到 VTM-9.0 的复杂度演进过程。红色线显示的是编码工夫,大家能够看到,随着编码性能增益的晋升,编码复杂度的晋升也很快。灰色线代表解码器的复杂度,相比 HEVC 来说始终维持在两倍不到,这阐明 VVC 解码器的复杂度是十分可承受的。如何做一个好的 VVC 实时编码器,在最低复杂度的前提下拿到最高的性能,两头有很多技术和学识,这也是为什么前面手淘和达摩院要共同开发这个我的项目的重要起因。

上图列举了 30 多种 VVC 编码工具,在混合视频编码的框架下,所有的功能模块都减少了新的工具,用以晋升 VVC 的压缩性能。另外 VVC 主打灵便多功能的特点,因而在规范制订过程中也始终思考到一些重要特定场景的视频内容,比方针对屏幕内容以及 360 度全景视频的编码工具。

上图显示了 VVC 中各个编码工具对性能增益以及复杂度的奉献。在这个图上,如果一个编码工具落在图的右上方,则阐明它的压缩性能好、同时复杂度低。然而咱们能够看到其实没有收费的午餐,理论数据显示,编码性能好的工具,复杂度也个别绝对较高,比方 ALF。因而,咱们在开发理论商用编码器的时候,如何正当抉择应用这些编码工具,对编码器的在复杂度和性能上的可行性至关重要。另外,从上图咱们能够看到在 VVC 的泛滥编码工具中,有 8 个性能增益能够超过 1%,其余绝对比拟小。


上图显示了 VVC 在支流 SDR 视频上的性能增益。对于高清、超高清视频来说,在雷同的 PSNR 指标下,VVC 绝对 HEVC 能够节俭 38.9% 带宽,对于图片编码来说,这个性能增益为 26.7%。

下面的表格中显示的码率节俭并没有达到 50%,那么 VVC 做为新一代的规范,是否达到了效率翻倍的设计指标?因为视频品质评判最权威的根据是主观品质,所以在每一代规范定稿前后,都会发展正式的主观品质验证工作,而每一代规范最初的带宽节俭也是在雷同的主观品质下来进行掂量。上面这个图显示了 VVC 主观品质验证工作在两个超高清 4K 视频通过十分严格的主观品质评测办法失去的初步数据,咱们能够看到,雷同的主观品质下,VVC 相比 HEVC 的码率节俭超过 50%。

支流 HDR 视频序列,PQ & HLG,VTM-9.0 vs. HM16.18

360 全景视频,8K & 4K,VTM-8.0 / HM-16.20 + 360Lib

更强的 codec(VVC) + 更先进的投影格局(GCMP)

VVC 有多功能灵便的个性,上图为 HDR 视频和 360 全景视频的主观性能。咱们能够看到在雷同主观性能下,VVC 在两种支流 HDR 视频(PQ 和 HLG)内容的码率节俭达到 30%,在 360 全景视频上的码率节俭达到 32.5%。其中在 360 视频上的增益次要从两方面失去:一方面 VVC 代替 HEVC,有更弱小的编码内核,另外一部分的性能增益是通过应用更加先进的投影格局得来的。另外,下面的数据只显示了主观性能下的码率节俭,针对 HDR 和 360 全景视频的主观评测工作也在有序发展,其中 360 全景视频的主观评测工作也由阿里规范团队次要牵头,预计明年初会有正式报告出炉。

达摩院视频规范团队加入 VVC 规范制订的过程中,在编码技术方面,奉献了和低延时实时通信、屏幕内容、无损压缩、高动静范畴的压缩、帧间预测、高层语法等方面相干的技术。

同时,咱们团队成员负责 JVET 大会和分会的代理主持人、VCC 性能验收工作中全景视频方面的负责人、测试模型算法形容文档编辑、专题讨论组(AHG)主席、也是若干外围试验的负责人,为阿里巴巴在国内视频规范组织中建设了肯定的影响力。

上面来看一下最新视频业界趋势以及 VVC 在这些视频趋势上的利用。

通过下面的行业报告对互联网各种类型的数据量的预测能够看到,视频将是永远的带宽小户;相比去年的饼状图(右边),5 年后当前不光整体数据量会有5倍的增长,而且视频在整体数据量的占比也将继续快速增长。

视频数据的继续快速增长次要有四个起因:一、视频更加丰盛,不论是电商(淘宝)、社交、娱乐(优酷)、还是新闻,包含智慧城市这些新兴利用,视频生产模式越来越多;二、大家越来越习惯随时随地,唾手可得的视频生产;三、消费者对视频的信号要求越来越高,由高清到超高清;最初,大家心愿视频模式更加新鲜,因而基于浸入式视频的 AR/VR 利用会疾速衰亡。

拿淘宝直播来讲,带宽老本占比很大。从日活和均匀时长的角度来看,不到一年的工夫增长十分迅速。月度带宽老本,有数量级的增长,占了整体业务老本中十分重要的一部分。当初的直播画面也很简单,静止也较多,大家对主播的清晰度要求也越来越高,对分辨率和帧率等方面的技术指标进步了要求。目前淘宝曾经将很有挑战性的视频内容做到均匀 800Kpbs 的带宽,从 H265 编码器的角度来看,曾经做到极致压缩。如果想要再显著的升高带宽老本,只能通过视频规范的更新换代来做到。

阿里 266 我的项目的次要指标是服务淘宝直播,心愿在明后年的双 11 可能做到淘宝直播实时编码,同时绝对阿里 265 来说压缩性能有显著的晋升。

Fraunhofer HHI 是一家十分有声望的德国钻研机构,做了很多代的视频规范开发,对 VVC 规范开发也做出了很大的奉献。在往年 9 月颁布了他们的开源 VVC 编解码器。咱们对这个开源 VVC 编解码器做了一下实测,在淘宝直播的视频上,编码速度只能达到每秒 0.5 帧,和咱们的实时编码要求相距甚远。而且对淘宝直播这样的利用来说,在解码器方面必须有最好的挪动端优化。这些起因让咱们更加意识到,咱们须要本人去做一流的编解码器,可能高效服务咱们团体外部业务,这是一件十分重要的事件,也是阿里 266 我的项目的次要指标。

最初咱们再看一下 MPEG 中其余相干的视频规范,以及在其它视频规范组织的工作。后面咱们讲了新鲜的视频是一个大家要关注的次要视频趋势之一,这个次要是指浸入式视频。MPEG 看到这个视频业界的重要趋势,除了制订 VVC 新一代视频压缩规范以外,还制订了一整套的 MPEGImmersive 浸入式媒体规范系列,其中包含点云压缩规范,六自由度视频和音频压缩规范,以及一些浸入式媒体的文件格式规范。

在国内视频规范组织之外,大家也都晓得另外一个有影响力的视频规范制订联盟,Alliance for OpenMedia (AOM)。AOM 从谷歌的 VP8 和 VP9 开始,2018 年出台第一代 AOM 规范 AV1,同时最近 AOM 也开始策划开发下一代视频规范 AV2。从国内的规范组织来说,AVS 通过了三代次要规范,当初在开发 AVS3 第二器。AVS3 第一期和 VVC 的工夫线十分吻合,也是在 2017 年底公布技术征求书,2018 年开始收集征求技术提案、征集的响应,也公布了 HPM 参考平台。通过一段时间的迭代,2019 年底定稿 AVS3 第一版。目前 AVS 正在持续推动 AVS3 第二版的制订,指标是在明年年底定稿第二版,性能指标超过 VVC。达摩院团队也在积极参与 AVS3 第二版的制订,为 AVS3 第二版的制订做出重要的技术奉献。

最初跟大家分享国内视频规范的将来会是什么样。咱们在做视频规范时,不会只是看古代,更不会只看着过来,还要去看未来。从技术的趋势来说,基于深度学习的视频编码是一个给大家很多心愿的技术方向。咱们晓得,过来 6 代国内视频规范都是基于传统的混合编码框架,其中有很多功能模块,然而做到明天这个框架曾经差不多到了性能天花板。把 DL 技术引入编码有两条路线:一个是能够去和传统的框架相结合,在各个功能模块上减少 DL 的编码工具,使性能变更好;另一种路线是做端到端的 DL 视频编码构造。这两个方向,从技术趋势来说都是十分值得去深究的。因而 MPEG 在往年 4 月份成立了 DNNVC 专题组,这个专题组想要做的事件是摸索深度学习在视频编码上的利用,用以突破传统框架的性能天花板,寻找视频编解码的将来方向。

最初和大家介绍一下达摩院视频技术团队次要负责的三局部工作:视频规范团队主攻 VVC、AVS3、AV2、DL 编码、VCM、DCM 等硬核技术。在视频硬件实现上,咱们团队开发了一款超高清的实时 265 编码器,在业界同类产品中压缩性能当先,同时还提供全硬件化的高效视频前解决的能力,目前服务于优酷直播业务。在视频软件实现上,咱们的团队除了主导方才所提到的阿里 266 我的项目,另外咱们也和淘宝团队深度单干,为视频会议提供基于 H264 和 H265 的软硬件编码优化计划,升高业务老本,进步用户体验。

原文链接
本文为阿里云原创内容,未经容许不得转载。

正文完
 0