简介: 2020天猫双11的直播间里,平台必须在1秒内将主播声音、画面和商品信息同步给散布范畴极广的百万级消费者,确保后者取得统一的、实时的、高水平的音视频体验,以及商品交易(尤其是秒杀)的可信度。为了进一步优化消费者体验,升高延时,阿里巴巴非常重视在音视频技术畛域的投入。本文从最新的国内视频规范VVC(Versatile Video Coding,多功能影像编码)讲起,分享视频直播行业的全景与阿里的翻新,以及达摩院和淘宝团队共同开发的VVC编解码器相干工作。
国内视频规范简史
上图显示的是两个重量级国内视频规范组织:国内通信联盟ITU-T以及国际标准化组织ISO/IEC MPEG。这两个巨头从30年前就开始做视频规范,到当初曾经是做到第6代了。其中这两大巨头联结制订的几款视频规范对国内上视频产业尤其有十分深远的影响。比方MPEG2,它完满的帮忙视频产业实现从模仿电视到数字电视的重要转型;H264对业界的奉献就更是显而易见,大家都晓得无论什么终端(电视、手机、电脑)和什么服务(播送,卫星,互联网,视频会议等)基本上全面反对这个规范;H265对高清超高清视频和HDR视频的遍及做出了重要的奉献。最新出炉的第6代规范VVC,除了服务当初已有的利用,升高带宽老本进步用户体验,同时它也能够赋能5G下新兴的视频利用,像AR/VR、360度全景视频以及超高清的4K、8K等。
为什么咱们要这样坚定不移的做6代视频规范?每次规范更新换代时,视频产业链须要从服务端内容生产商始终到最初的消费者,包含两头每个环节上买通端到端的生态系统,每一个环节都要去做更新。因为视频规范更新换代须要付出这么大的致力,所以咱们对每一代新规范都会有一个根本的要求:雷同的视频品质下编码效率翻倍,也就是说相比上一代,新规范的带宽节俭必须达到50%。
先来看一下VVC规范会常常碰到的一些词:
- VVC:Versatile Video Coding,Versatinle指灵便多功能的个性
- VTM:测试模型参考软件平台
- JVET:ITU-T和ISO/IEC MPEG的联结委员会
- H.266:VVC是两个国际标准组织的双标,H.266是VVC在ITU-T的规范编号
- 历时近3年的pre-standard技术开发及积攒工作,JEM(Joint Exploration Model)参考软件平台。
- 雷同PSNR指标下,JEM-7.0绝对HEVC的参考平台HM达到34%的码率节俭,为正式标准化提供了重要的技术撑持。
- 同时,360Lib参考软件平台为全景视频的解决、压缩和品质评估提供了全套残缺的工作流程。
在VVC正式标准化还没开始之前,国际标准组织和成员公司就进行了多年的技术预研和技术积攒。从上图能够看到,从2015年初开始,JVET通过了历时两年半的编码技术预研,搭建并欠缺了JEM参考软件平台;到2017年中,在雷同的PSNR的指标下,JEM绝对HEVC曾经能够达到34%的码率节俭,为正式开始制订下一代视频规范提供了无力的技术撑持和性能证实。
另外,在JVET积攒下一代编码技术的预研过程中,因为AR/VR等新兴利用的影响,JVET也对360度全景视频进行了充沛钻研。为此,JVET建设了360Lib参考软件平台,和JEM相结合,为全景视频的解决,压缩以及品质评估提供了一套残缺的工作流程和性能剖析的能力。2017年10月,VVC在JEM和360Lib基本上成熟时,ITU-T和ISO/IECMPEG这两个规范组织发表了联结技术征集书,外面包含3中次要视频格式:规范动静SDR视频(支流视频格式)、高动静HDR视频,以及360全景视频。这也是6代规范以来第一个思考到多种视频格式的技术征集书。
2018年4月,全世界一共有32个单位提交了23份征求书的响应,在雷同PSNR的状况下,最佳的响应提供了40%以上的码率节俭,从此VVC标准化正式启程。2018年4月至2020年的7月,通过两年多的致力,VVC的第一版正式定稿。
达摩院视频规范团队在2019年年初时候开始参加VVC的规范制订,历时一年半,提交了很多技术提案被驳回到VVC规范中,为VVC规范的制订做出了重要的奉献。
下面图中的蓝色局部代表VVC参考软件平台VTM-1.0到VTM-9.0的性能演进,以及VVC绝对HEVC在高清超高清视频上的性能增益。咱们能够看到,VVC两年多的标准化过程次要分成两个阶段:前半阶段次要重视减少先进编码工具来进步VVC的性能增益,因而在VVC标准化的第一年期间压缩性能迅速回升;在后半阶段,规范委员会JVET更加重视VVC规范设计上的细化工作,重视各个VVC编码工具之间的设计交融,保障低功耗高效的软硬件实现,因而在VVC标准化的第二年中,咱们也能够看到VVC的性能增益逐步趋于稳定。
另外上图还提供了VVC参考软件平台VTM-1.0到VTM-9.0的复杂度演进过程。红色线显示的是编码工夫,大家能够看到,随着编码性能增益的晋升,编码复杂度的晋升也很快。灰色线代表解码器的复杂度,相比HEVC来说始终维持在两倍不到,这阐明VVC解码器的复杂度是十分可承受的。如何做一个好的VVC实时编码器,在最低复杂度的前提下拿到最高的性能,两头有很多技术和学识,这也是为什么前面手淘和达摩院要共同开发这个我的项目的重要起因。
上图列举了30多种VVC编码工具,在混合视频编码的框架下,所有的功能模块都减少了新的工具,用以晋升VVC的压缩性能。另外VVC主打灵便多功能的特点,因而在规范制订过程中也始终思考到一些重要特定场景的视频内容,比方针对屏幕内容以及360度全景视频的编码工具。
上图显示了VVC中各个编码工具对性能增益以及复杂度的奉献。在这个图上,如果一个编码工具落在图的右上方,则阐明它的压缩性能好、同时复杂度低。然而咱们能够看到其实没有收费的午餐,理论数据显示,编码性能好的工具,复杂度也个别绝对较高,比方ALF。因而,咱们在开发理论商用编码器的时候,如何正当抉择应用这些编码工具,对编码器的在复杂度和性能上的可行性至关重要。另外,从上图咱们能够看到在VVC的泛滥编码工具中,有8个性能增益能够超过1%,其余绝对比拟小。
上图显示了VVC在支流SDR视频上的性能增益。对于高清、超高清视频来说,在雷同的PSNR指标下,VVC绝对HEVC能够节俭38.9%带宽,对于图片编码来说,这个性能增益为26.7%。
下面的表格中显示的码率节俭并没有达到50%,那么VVC做为新一代的规范,是否达到了效率翻倍的设计指标?因为视频品质评判最权威的根据是主观品质,所以在每一代规范定稿前后,都会发展正式的主观品质验证工作,而每一代规范最初的带宽节俭也是在雷同的主观品质下来进行掂量。上面这个图显示了VVC主观品质验证工作在两个超高清4K视频通过十分严格的主观品质评测办法失去的初步数据,咱们能够看到,雷同的主观品质下,VVC相比HEVC的码率节俭超过50%。
支流HDR视频序列,PQ & HLG,VTM-9.0 vs. HM16.18
360全景视频,8K & 4K,VTM-8.0 / HM-16.20 + 360Lib
更强的codec(VVC) + 更先进的投影格局(GCMP)
VVC有多功能灵便的个性,上图为HDR视频和360全景视频的主观性能。咱们能够看到在雷同主观性能下,VVC在两种支流HDR视频(PQ和HLG)内容的码率节俭达到30%,在360全景视频上的码率节俭达到32.5%。其中在360视频上的增益次要从两方面失去:一方面VVC代替HEVC,有更弱小的编码内核,另外一部分的性能增益是通过应用更加先进的投影格局得来的。另外,下面的数据只显示了主观性能下的码率节俭,针对HDR和360全景视频的主观评测工作也在有序发展,其中360全景视频的主观评测工作也由阿里规范团队次要牵头,预计明年初会有正式报告出炉。
达摩院视频规范团队加入VVC规范制订的过程中,在编码技术方面,奉献了和低延时实时通信、屏幕内容、无损压缩、高动静范畴的压缩、帧间预测、高层语法等方面相干的技术。
同时,咱们团队成员负责JVET大会和分会的代理主持人、VCC性能验收工作中全景视频方面的负责人、测试模型算法形容文档编辑、专题讨论组(AHG)主席、也是若干外围试验的负责人,为阿里巴巴在国内视频规范组织中建设了肯定的影响力。
上面来看一下最新视频业界趋势以及VVC在这些视频趋势上的利用。
通过下面的行业报告对互联网各种类型的数据量的预测能够看到,视频将是永远的带宽小户;相比去年的饼状图(右边),5年后当前不光整体数据量会有5倍的增长,而且视频在整体数据量的占比也将继续快速增长。
视频数据的继续快速增长次要有四个起因:一、视频更加丰盛,不论是电商(淘宝)、社交、娱乐(优酷)、还是新闻,包含智慧城市这些新兴利用,视频生产模式越来越多;二、大家越来越习惯随时随地,唾手可得的视频生产;三、消费者对视频的信号要求越来越高,由高清到超高清;最初,大家心愿视频模式更加新鲜,因而基于浸入式视频的AR/VR利用会疾速衰亡。
拿淘宝直播来讲,带宽老本占比很大。从日活和均匀时长的角度来看,不到一年的工夫增长十分迅速。月度带宽老本,有数量级的增长,占了整体业务老本中十分重要的一部分。当初的直播画面也很简单,静止也较多,大家对主播的清晰度要求也越来越高,对分辨率和帧率等方面的技术指标进步了要求。目前淘宝曾经将很有挑战性的视频内容做到均匀800Kpbs的带宽,从H265编码器的角度来看,曾经做到极致压缩。如果想要再显著的升高带宽老本,只能通过视频规范的更新换代来做到。
阿里266我的项目的次要指标是服务淘宝直播,心愿在明后年的双11可能做到淘宝直播实时编码,同时绝对阿里265来说压缩性能有显著的晋升。
Fraunhofer HHI是一家十分有声望的德国钻研机构,做了很多代的视频规范开发,对VVC规范开发也做出了很大的奉献。在往年9月颁布了他们的开源VVC编解码器。咱们对这个开源VVC编解码器做了一下实测,在淘宝直播的视频上,编码速度只能达到每秒0.5帧,和咱们的实时编码要求相距甚远。而且对淘宝直播这样的利用来说,在解码器方面必须有最好的挪动端优化。这些起因让咱们更加意识到,咱们须要本人去做一流的编解码器,可能高效服务咱们团体外部业务,这是一件十分重要的事件,也是阿里266我的项目的次要指标。
最初咱们再看一下MPEG中其余相干的视频规范,以及在其它视频规范组织的工作。后面咱们讲了新鲜的视频是一个大家要关注的次要视频趋势之一,这个次要是指浸入式视频。MPEG看到这个视频业界的重要趋势,除了制订VVC新一代视频压缩规范以外,还制订了一整套的MPEGImmersive浸入式媒体规范系列,其中包含点云压缩规范,六自由度视频和音频压缩规范,以及一些浸入式媒体的文件格式规范。
在国内视频规范组织之外,大家也都晓得另外一个有影响力的视频规范制订联盟,Alliance for OpenMedia (AOM)。AOM从谷歌的VP8和VP9开始,2018年出台第一代AOM规范AV1,同时最近AOM也开始策划开发下一代视频规范AV2。从国内的规范组织来说,AVS通过了三代次要规范,当初在开发AVS3第二器。AVS3第一期和VVC的工夫线十分吻合,也是在2017年底公布技术征求书,2018年开始收集征求技术提案、征集的响应,也公布了HPM参考平台。通过一段时间的迭代,2019年底定稿AVS3第一版。目前AVS正在持续推动AVS3第二版的制订,指标是在明年年底定稿第二版,性能指标超过VVC。达摩院团队也在积极参与AVS3第二版的制订,为AVS3第二版的制订做出重要的技术奉献。
最初跟大家分享国内视频规范的将来会是什么样。咱们在做视频规范时,不会只是看古代,更不会只看着过来,还要去看未来。从技术的趋势来说,基于深度学习的视频编码是一个给大家很多心愿的技术方向。咱们晓得,过来6代国内视频规范都是基于传统的混合编码框架,其中有很多功能模块,然而做到明天这个框架曾经差不多到了性能天花板。把DL技术引入编码有两条路线:一个是能够去和传统的框架相结合,在各个功能模块上减少DL的编码工具,使性能变更好;另一种路线是做端到端的DL视频编码构造。这两个方向,从技术趋势来说都是十分值得去深究的。因而MPEG在往年4月份成立了DNNVC专题组,这个专题组想要做的事件是摸索深度学习在视频编码上的利用,用以突破传统框架的性能天花板,寻找视频编解码的将来方向。
最初和大家介绍一下达摩院视频技术团队次要负责的三局部工作:视频规范团队主攻VVC、AVS3、AV2、DL编码、VCM、DCM等硬核技术。在视频硬件实现上,咱们团队开发了一款超高清的实时265编码器,在业界同类产品中压缩性能当先,同时还提供全硬件化的高效视频前解决的能力,目前服务于优酷直播业务。在视频软件实现上,咱们的团队除了主导方才所提到的阿里266我的项目,另外咱们也和淘宝团队深度单干,为视频会议提供基于H264和H265的软硬件编码优化计划,升高业务老本,进步用户体验。
原文链接
本文为阿里云原创内容,未经容许不得转载。