关于云计算:编解码再进化Ali266-与下一代视频技术

32次阅读

共计 10811 个字符,预计需要花费 28 分钟才能阅读完成。

过来的一年见证了人类百年不遇的大事记,也见证了多种视频利用的厚积薄发。而因而所带来的视频数据量的爆发式增长更加加剧了对高效编解码这样的底层硬核技术的急切需要。

新视频编解码规范 VVC 定稿不久之后,阿里巴巴的视频团队开始全力投入发展 VVC 软件编解码的开发工作。

在 LiveVideoStackCon 2021 北京峰会,阿里巴巴研究员,阿里云智能云视频规范与实现负责人叶琰老师开展分享视频业界现状、Ali266 自研 VVC 编解码器的技术演进史和业务瞻望、以及视频业界所面临的将来时机和挑战。

文 | 叶琰
整顿 | LiveVideoStack

大家好,我是叶琰,我是阿里云智能视频规范与实现团队负责人。本次分享的话题是编解码再进化:Ali266 与下一代视频技术。

本次分享分成四个局部:首先是视频业界现状、而后 Ali266 自研 VVC 编解码器的技术演进史和业务瞻望,最初会从视频业界角度来看所面临的将来时机和挑战。

1. 视频业界现状

不夸大的说,过来一年和当初所经验的新冠疫情是人类百年不遇的小事。疫情打断了失常生活节奏和人与人之间习惯的面对面交换模式,扭转了十分多游戏规则,同时触发了先进视频科技产品的厚积薄发。

全世界疫情状况各有不同,中国属于疫情管制十分好的国家,因而人民日常生活根本照常,然而在疫情较为重大的国家和地区,因为受到疫情影响,人们的生存和工作产生了翻天覆地的变动。

这些变动包含几个方面。首先无论是工作上的交互从线下转到线上,大量应用云会议,拿钉钉的视频会议来讲,到明天累计每天用户时长超过了一亿分钟。另外,受疫情影响比较严重的国家和地区过半员工在家办公,在家工作中通过近程协同进行,和之前所习惯的面对面交换有了很大变动。

不光是工作,人们的娱乐也从线下转到线上,拿美国来讲,在过来一年多电影院关门,尽管从今年夏天开始营业,然而看电影的人寥寥无几。大家的娱乐生存次要依赖于家庭影院,包含明星也从线下转到线上上演,通过线上交互方式与粉丝进行互动。

从视频业界的角度来说,咱们在过来的一年见证了十分重要的里程碑,就是 H.266/VVC 新一代国内视频规范的定稿。VVC 规范是从 2018 年 4 月正式开始标准化,通过两年多工夫,在 2020 年夏天达到 Final Draft International Standard,也就是第一版的定稿。

VVC 在整个两年多的旅程中,尤其最初半年,受到疫情影响,来自全世界各地近 300 名的视频专家日夜颠倒的加入通过网会的模式发展技术探讨,终于如期完成 H.266/VVC 新一代规范制订。

与之前每一代国内视频规范相似,VVC 绝对于上一代 HEVC 规范带宽老本减半。

上图示意 VVC 主观性能测试后果,这里展现的是 VVC 参考平台相比于 HEVC 参考平台,在雷同主观品质的前提下,VVC 所能做到的带宽节俭。

这外面的视频内容分为 5 类,前两列为 UHD 和 HD,也就是超高清和高清视频,咱们能够看到 VVC 的 VTM 参考软件相比于 HEVC 的 HM 参考软件能够达到 43% 到 49% 的带宽节俭。

对于 HDR 和 360 全景视频这两种更加新鲜的视频格式,VVC 能够做到更高的带宽节俭,别离达到 51% 到 53%。

最初一列是针对于低延时利用的测试,也就是应用视频会议上所用的时域预测构造,因为预测构造收到了更多的限度,VVC 所能达到的带宽节俭稍小,但也达到了 37%,相当可观。

篇幅无限,这外面只是展现了高度总结的数字,如果读者对两头细节感兴趣,能够去查一下 JVET 规范委员会 T/V/W2020 三个会议中主观测试集报告,其中有十分多的细节可供参考。

在视频暴发和最新规范 VVC 定稿的背景下,阿里巴巴开始了 Ali266 技术开发。首先看一下 Ali266 技术演进史。

2. Ali266 技术演进史

什么是 Ali266?咱们心愿它做到什么?

Ali266 是咱们对最新规范 VVC 进行编解码实现,第一点心愿做到 高压缩性能 ,拿到 VVC 所带来的带宽节俭红利;第二点是 高清实时编码速度 ,相较于 HEVC,VVC 编码工具更多,放弃实时编码速度对于真正商用来说具备微小的意义;第三点是让 Ali266 具备残缺的 自成一体的编解码能力,更好关上端到端的生态。

做 Ali266 是心愿实现上述三个十分有挑战的技术点,做到技术当先性,转换成产品竞争力,并帮忙咱们进行业务拓展。

上图展现了泛滥的 VVC 编码工具。我这里把传统的视频编解码框架中的次要功能模块分成几类,包含块划分、帧内预测、帧间预测、残差编码、变动量化、环路滤波、以及其余编码工具。

下面的蓝色圆圈是 HEVC 的编码工具,上面的紫色圆圈是 VVC 的编码工具。咱们能够看到,在相应的功能模块中,HEVC 只有三四个相应编码工具,而 VVC 反对更加丰盛的编码工具集,这也是它可能有弱小的压缩能力并拿到带宽节俭红利的次要起因。

编码工具都具备肯定的复杂度,因而每减少一个编码工具都会相应带来复杂度和性能的回升。

上图是 JVET 规范委员会在 VVC 规范开发期间跟踪的每个编码工具带来的复杂度和能提供的编码性能的全面概览图。

这个图中横轴是工夫,纵轴是编码性能的回升,不同色彩点对应于不同的 VVC 编码工具。其中横轴越往右相当于一个编码工具的复杂度越低,纵轴越靠上阐明编码工具带来的性能越高。

因而咱们心愿编码工具落在右上角,但其实从图中能够看到,VVC 编码工具基本上在右上角一片空白,更多的编码工具可能带来 1%、1.5% 的性能增益,然而也有小幅的复杂度回升。

这对于做编码器优化提出挑战,因为并不能只有抓住几个次要的编码工具进行优化就能够,而是要在丰盛的编码工具集中,针对以后的输出视频可能疾速精确抉择应该应用的编码工具,这是做 H.266 编码器的次要优化难点。

上图左边的表展现的是在咱们软编系统对不同编码工具耗时比进行 profile,相应于右边的图,再一次验证 40% 的编码工具的耗时都不多,只占了 2% 左右,但都提供性能,所以咱们必须决定如何去抉择。另外,92% 的编码工具的耗时都不到 10%,对整个工程算法上的优化提出挑战。

上图外面展现的不光是 H.266 编码器优化所受到的挑战,而是任何一个实时编码器都会受到的挑战。

因为在视频编码过程中,都要经验压缩性能回升、编码速度降落的拉锯战,所以咱们要做的是克服这个拉锯战。

如果咱们比照 VVC 参考平台 VTM 相比于 HEVC 参考平台 HM,尽管带宽减半,然而 VTM 的编码速度只有 HM 编码速度的八分之一,这是对实时编码是不能承受的,所以接下来我次要讲一下 Ali266 所进行的优化。

咱们将从两个维度对优化工作进行介绍,首先是 编码品质(编码性能)的优化。

编码品质(编码性能)优化

咱们在编码品质和性能的放弃上做了很多工作。因为篇幅无限,我只介绍一个例子,这里我选的是预剖析、前解决、和外围编码工具的联结优化例子。

预剖析 选的是场景切换检测,做编码器的同学都晓得每个商用编码器可能进行精准的场景切换检测十分有必要;前解决选的是 MCTF 过程,下文会简略介绍一下 MCTF 是什么;外围编码工具选的是 VVC 的新编码工具 LMCS。

这个是对于 MCTF 前处理过程的一个简介。

MCTF 是 motion conmpensated temporal filtering 的意思,它是通过逐层静止搜寻和静止弥补对输出视频信号进行时域上滤波,通过双边滤波器做时域上的滤波,能够进行无效的进行视频降噪,并且降噪在时域上产生的同时在空域上也起到降噪的成果。

MCTF 能够无效晋升编码效率,正是因为如此,VTM 和 VVEnc(VVC 的开源编码器)平台上都有反对 MCTF 这个前处理过程。

那么咱们看一下场景切换和 MCTF 如何进行联合。

上图展现编码器在浅黄低时域层视频帧上进行 MCTF,因为 MCTF 要应用时域上的静止弥补和搜寻,每个浅黄色的帧都有相应的浅灰的帧作为 MCTF 的参考帧,而浅蓝色的帧与 MCTF 没有关系。因为有时域参考的关系,因而遇到场景切换时须要对 MCTF 进行批改。

咱们能够看到,在失常状况下,第八帧是 MCTF 帧,它的前后两帧共四帧是 MCTF 参考帧。遇到场景切换状况,比方在第十帧遇到场景切换,原本第十帧是 MCTF 参考帧,然而因为场景切换,第十帧会变成新的 I 帧,它的时域层相应降落,原来的 MCTF 滤波帧和 MCTF 参考帧必须进行调整,也就是浅黄色和浅灰色的帧会有调整。高低比照能够看见,因为场景切换,第八帧的 MCTF 参考帧调整为它的前三帧和后一帧,而第十帧变成 MCTF 滤波帧,其应用的 MCTF 参考帧为它的后四帧。

看一下场景切换和 LMCS 如何进行联合。

LMCS 是 VVC 中的新编码工具,须要编码器进行相应的参数计算,通过 APS 进行传输,这里 LM 指的是 luma mapping,调整亮度信号动静范畴,让亮度信号更加充分利用动静范畴,比如说 8bit 是 0-255 动静范畴、10bit 是 0-1023 动静范畴。

因为在 LM 过程中对亮度信号进行调整,须要进行 CS 过程,也就是 chroma scaling,对同一个块外面的色度信号做相应的调整,来弥补亮度信号调整对色度的影响。

此工具和场景切换如何联合呢?

用方才那个例子,第十帧发现有场景切换,是新 I 帧,新场景的动静范畴可能齐全不一样了,因而会在新的 I 帧上判断是否须要进行 LMCS 参数更新,而且在相应的 GOP 预测构造扭转后,新的帧会变成新的低时域帧,比方第 26 帧在 GOP16 状况下变成低时域帧,那么咱们会对静止是否比拟激烈进行判断,如果静止激烈,在低时域帧上也须要进行 LMCS 参数更新。

通过这样的优化,场景切换 + 前解决 MCTF+LMCS 联结优化可能拿到什么样的性能呢?

如果视频相当长,包含一次以上场景切换,如果独自与 LMCS 一起优化,能够达到 2% 的带宽节俭;如果独自与 MCTF 一起优化,能够达到 2.1% 的带宽节俭;如果三个同时进行优化,能够将性能完满叠加,失去 4.1% 性能增益。

如果一个视频中场景切换相当频繁,达到 2 次以上,表中能够看出有进一步性能晋升,从独自优化别离达到 2.1% 和 2.9%,到三者同时优化拿到 5% 性能增益。

如果还有更加频繁的场景切换,那么这个联结优化的红利会更多,和 LMCS 进行联合,能够达到 3.6%;如果与 MCTF 联合,能够达到 3.2%;如果三者一起联结优化,能够失去 6.8% 的性能增益。

大家做编码器的同学都晓得,6.8% 的性能相当可观,而咱们能够通过预剖析、前解决和外围编码工具的联结优化的办法拿到。

方才次要介绍的是编码品质性能的优化,接下来会从第二个十分重要的维度去看怎么进行编码的 速度优化

编码速度优化

首先看一个示例:

VVC 十分有代表性的新工具是灵便的块划分构造,上图比照 VVC 和 HEVC 对同一个场景的划分比照,VVC 是右边,HEVC 是左边。在同一场景下,VVC 通过更加灵便的块划分能够更加好的对物体轮廓进行形容。

咱们看一下放大图。拿 HEVC 来讲,因为只反对四分树划分,所以每一块都是正方形的。

VVC 容许更加灵便的在程度方向、竖直方向进行二分树(binary tree,BT)或三分树(ternary tree,TT)的划分。二分树和三分树统称为 MTT(mutli-type tree)。比照右边的放大图和左边放大图,通过长方形划分,VVC 对于手指形容更加精准。

尽管 VVC 用了更多的块划分办法失去更加好的物体轮廓形容,然而给编码器带来的艰难是编码器须要尝试更加多的抉择,因而怎么样减速 MTT 划分的决定对晋升编码速度十分重要。

这里咱们应用了基于梯度的 MTT 减速概念。如果一个块的纹理变动是在程度方向上比拟激烈,那么在程度方向进行划分的可能性就会升高,竖直划分也是一样的情理。

如果拿程度做例子,基于这个察看,对于每个块进行块划分的具体决策之前先会计算四个方向梯度,包含程度方向梯度、竖直方向梯度、和两个对角线上的梯度。

拿程度方向来讲,如果我发现程度方向梯度大于另外三个方向梯度,超过肯定阈值,就阐明以后块在程度方向的纹理变动比拟强烈,因而编码器将不再进行程度的 BT 和 TT 的决策,减速编码工夫。

咱们能够看到,这个技术的减速成果从相对帧率、编码器速度掂量来看,能够做到 14.8% 的晋升,这个提速百分比相当可观。

当然,因为跳过了一些块划分的决策会造成性能降落,然而因为性能损失只有 0.4%,从整体减速与性能性价比来说,这个是十分完满的疾速算法。

咱们有其余十分多的优化工作,因为篇幅关系不一一多述。我来做一个 Ali266 编码器小结。

当初 Ali266 反对两大品位:

Slow 品位,次要实用于离线利用,对标 x265 veryslow 品位,Ali266 Slow 品位的编码速度和 x265 veryslow 一样,同时相比起 x265 veryslow 品位能够达到 50% 的码率节俭,也就是带宽减半。

同时 Ali266 还反对对于商业化来说十分重要的 Fast 品位 ,对实时编码速度要求严格的商业利用,能够做到 720p30 帧 每秒实时编码,在 VVC 编码器速度业界当先,对标的实时利用,与 x265 medium 品位相比,做到 40% 码率节俭,是十分大的带宽红利。

从编码速度来说,咱们并没有停留在 720p30,还在持续开发 2k 和 4k、8k 超高清视频实时编码能力。

另外,在筹备此次的分享过程中,Ali266 曾经做到了 2k,也就是 1080p30 帧 每秒的实时编码能力,减少了咱们挑战超高清实时编码的信念。

咱们后续继续推动 Ali266 的次要指标是持续放弃 VVC 的性能劣势,减速 VVC 商业落地

讲完编码器,我接下来讲一下 解码器,因为咱们之前讲到,开发 Ali266 的次要指标之一是提供残缺的 VVC 编解码能力。

解码器设计指标从商用角度来说有以下几个,首先是实时解码速度,甚至比实时更快;其次是须要解码器十分稳固鲁棒;而后是 thin decoding 的概念,心愿解码器比拟轻。

为了实现这些设计指标,咱们从 4 个方面进行了优化,其中一个十分重要的维度就是从零开始。

这个是说咱们摈弃了之前所有的开源或者参考平台的架构设计、数据结构设计,从零开始,依照 VVC 规范文档开始进行齐全全新的数据结构和框架设计,在设计过程中应用了大家比拟相熟的减速方法,包含多线程减速、汇编优化、内存和缓存效率优化等。通过这四个维度来晋升 Ali266 解码器的性能。

上图列举了从四个维度上 Ali266 解码性能。

从速度来说咱们比拟 关注低端机(让 VVC 有普惠概念),而后在低端机测试上咱们发现 Ali266 只须要三个线程就能够做到 720p 的实时解码,因为线程占用率较低,能够无效升高 CPU 占用率和手机的功耗,对于理论商用是相当无利的指标。

从稳定性的角度来说,咱们进行了多款苹果手机和安卓手机的测试,笼罩了两大挪动端操作系统,并且全面笼罩高中低三档挪动端设施来保障稳定性。

从鲁棒性来说,咱们应用了上万条错误码流来冲击 Ali266 解码器,保障其在无论是 slice 之上还是 slice 之下的呈现谬误,都可能有完满的疾速谬误复原机制。

最初,正是因为咱们从零开始,能力在 thin decoder 上给出一个称心的答案,咱们的 Ali266 解码器包大小不到 1MB,而且在解码高清 720p 的时候,内存应用只须要 33MB。

我来做了一个 Ali266 解码器的小结。

从以后性能来说,Ali266 的解码速度、稳定性、鲁棒性、decoder footprint 等指标均达到设计指标和商用要求,下一步咱们心愿对 VVC 进行 Main Profile 的全方位反对,次要指的是 10-bit 解码的全面反对。

另外,咱们也会全力进行播放器生态的完善化,与 Ali266 编码器相配合,减速 VVC 商业落地。

既然之前咱们屡次提到了商业落地,接下来看一下对 Ali266 的业务瞻望。

3. Ali266 业务瞻望

首先来看 VVC 规范层面两到三年的落地瞻望。

与 HEVC 和之前的 H264 一样,VVC 是个通用规范,因而能够全面笼罩多种视频利用,包含点播、视频会议、直播、IoT 视频监控等已有的视频利用。

还有很多新兴视频利用在衰亡中,包含全景视频、AR、VR、以及最近很火的元宇宙,这些利用也须要视频编解码的技术底座,因而对于这类新兴利用,VVC 规范也有普适性。

那么咱们再来看一下 Ali266 的利用瞻望。

咱们从阿里团体内开始,这里列了四点:优酷、钉钉视频会议、阿里云视频云、淘宝。

在整个如何推动 Ali266 利用上我集体的见解是会从闭环利用走到凋谢利用。为什么是这样的逻辑?

起因在于闭环业务下端到端可控性更强,在新规范生态还不够欠缺的时候能够通过闭环办法买通,这外面优酷和钉钉视频会议是比拟完满的闭环业务示例。

在闭环打磨了 Ali266,并且走通从内容到播放的整体链路后,咱们再去应答凋谢利用会更加 ready,更加成熟。咱们开始推动大规模凋谢利用的时候,VVC 会有比拟全面的挪动端和端上硬解反对,那也将是真正大规模展现 VVC 规范压缩力的时候。

方才讲到优酷,这里我与大家介绍一下 优酷帧享,就是艺术家与科学家联手打造的超高清视听体验。

它依赖了几大十分重要的超高清技术指标,两头包含高帧率,60 帧到 120 帧每秒的高帧率,从空域分辨率角度来说,4K-8K 都在帧享范畴内,动静范畴来说帧享齐全反对 HDR 高动静范畴对比度和宽色域。而且,有影必须有音,优酷帧享还包含对 3D 盘绕音效的反对。

另外一个优酷十分新鲜的利用是优酷自在视角,它次要反对 Free ViewPoint Video(FVV),FVV 提供给用户很好的 Feature,因为它传递的视频格式是全景视频,用户能够本人用手在屏幕上进行滑动抉择本人想要观看视角,从不同角度自由选择本人想看的内容,优酷的自在视角在 CBA 重大赛事以及《这就是街舞》大型的综艺节目里都有反对。

来看看 Ali266 可能给优酷带来什么样的价值,如何助力帧享分辨率晋升、帧率、动静范畴晋升。

VVC 规范带来的带宽红利在 HDR 视频上超过 50%。对于帧享 8k120 帧 HDR 超高清体验是有十分好技术撑持。

全景视频自在视角方面,因为 VVC 原生反对 360 全景视频,可能更好的晋升主观品质,帮忙优酷在这方面孵化新业务。

另外,之前尽管没有提到,然而 VVC 和 HEVC 一样,也有 Still picture profile,因而能够帮忙动态图片节俭带宽和存储,因而优酷缩略图、封面图动态的场景也能够完满用到 Ali266 弱小压缩能力。目前咱们团队曾经与优酷在进行深度单干,心愿在不久的未来给大家汇报 Ali266 落地优酷的后果。

方才讲了在过来一年中产生的事件,接下来看一下在后 VVC 时代视频业界看到的时机和挑战。

4. 后 VVC 时代的时机和挑战

这里分为两局部,技术和利用。从技术角度来说,每一代规范次要都在谋求更高的压缩率,因而 VVC 并不是起点。

在对更高压缩率的摸索上,包含在传统编解码框架下进行摸索以及在 AI 技术撑持下对视频编解码框架和工具集的摸索。从利用的角度来说,简略看一下新兴利用 AR、VR、MR、云游戏、元宇宙这几个新兴利用在后 VVC 时代提出的时机和挑战。

### 更高的压缩力:框架之争

技术层面为了谋求更高的压缩力,当初到了工夫去看始终以来视频编解码规范所应用的框架在下一代是否会持续应用。

右边是始终以来几代视频规范以来的手工打造的视频编解码框架,包含不同的功能模块,块宰割、帧内帧间编码、环路滤波等。

左边是全新 Learning based 的框架,齐全通过 AI 办法学习,对于 encoder、decoder 通过全神经网络进行实现。

在传统框架下,JVET 规范委员会最近设立了 ECM(enhanced compression model)的参考平台,用于摸索下一代编码技术。

以后 ECM 版本是 2.0,这个表中比照了 ECM2.0 与 VTM-11.0 的压缩性能,能够看出在亮度信号上 ECM2.0 曾经能够做到 14.8% 的性能增益,色度信号上有更高的性能,encoder 和 decoder 复杂度也有肯定回升,不过当初次要是推动压缩力,复杂度不是现阶段最关怀的维度。

ECM 基于传统框架,大部分工具是之前开发 VVC 的时候曾经看到过的,通过进一步的算法迭代和打磨,失去 14.8% 的性能增益。

AI 编码的情况分成两局部:端到端的 AI、以及工具集的 AI。

方才的示例图显示,端到端的 AI 与传统框架齐全不一样,采纳全新框架。

以明天端到端 AI 能力来说,在单张图片的编码性能能够小幅超过 VVC,但如果思考真正视频编码,也就是把时域维度也思考进来,端到端 AI 的性能还是比拟靠近 HEVC,还有肯定提高的空间。

另外 AI 技术还能够用来做工具集 AI,在不改变传统框架的前提下,在某些功能模块上开发 AI 编码工具,用以替换或叠加在已有传统编码工具之上,晋升性能。

这部分比拟多的例子是帧内编码和环内滤波工具。拿明天来说以咱们所知,基于多神经网络模型的 NNLF 环路滤波技术相比 VVC,性能增益能够达到 10%。

AI 视频编码有其本人挑战,分为三个维度。

第一个挑战是 计算复杂度,因为当初咱们次要还是参数量换性能增益的概念,最近看到 Google 的 paper 给出量化的领导,如果一个 AI 工具能够提供个位数的性能增益,那么心愿这个工具的参数量管制在 50K 的数量级上。明天很多 AI 工具的参数量在 500k 到 1 兆左右,还是与指标参数量还有数量级的差别,须要简化。另外,计算复杂度同时也包含须要思考参数定点化,运算量尤其是乘法运算量这些维度。

第二个挑战是 数据交互量,尤其是工具级 AI 与传统编码器的其它功能模块可能有很多像素级的交互,无论是帧级还是块级产生,对于编解码吞吐率都是很大的挑战。现如今所看到的性能较好的工具都依赖多神经网络模型,多 NN 模型须要模型调换,在模型参数量比拟大的时候,调换模型所产生的数据交互量也对吞吐率提出挑战。

第三个挑战是 挪动端解码,大家手机看视频是很广泛的行为,如何在挪动端做好解码,集体认为因为下面说到的数据交互量的起因,通过做解码器 + 外置 NPU 的办法不太可行,如果要做合一的解码器就要思考硬件老本。

同一篇 Google 的 Paper 说一个传统解码器的老本相当于实现一个 2M 参数 MobileNet 模型的老本。咱们晓得 MobileNet 是比拟轻量级的神经网络,如果一个 NNLF 滤波器须要 1M 参数的话,就是一半的解码器老本。所以老本上的降落须要更加致力去做到。所以说 AI 编码次要挑战总结下来就是须要做到更正当的性价比,这方面须要各个公司进行大量研发投入才有可能拿到正当性价比。什么时候能拿到正当的性价比,施展 AI 视频编码的后劲,咱们还是刮目相待。

最初我想说一个个人见解。

AI 编码有这样性价比挑战的一个起因是因为 AI 技术原本就是 Data Driven 的,在一个特定场景下的 Data Driven 更加容易设计,而次要的技术对于通用场景上的挑战肯定更大。

因而我认为能够去看一下特定场景下的 AI 编码,可能会更快的提供技术和业务的冲破机会。大家最近可能留神到 Facebook 和英伟达对人脸视频进行端到端 AI 编码,在这种特定场景下,在超低码率下,AI 编码对人脸清晰度复原相比于传统办法来说能够有比拟大的冲破,显示了 AI 编码的后劲。

新兴利用

最初讲三个新兴利用的例子,AR/VR/MR、云游戏、元宇宙。前两者是元宇宙的一部分,所以咱们看一下元宇宙。

首先来看一下什么是元宇宙。

最近“元宇宙”这个词衰亡的时候,我本人不是很分明到底是什么意思,所以我去查了一下。这是从纽约时报文章中摘出来的,什么叫 Metaverse 也就是元宇宙,纽约时报定义为虚构的体验、环境、财产的混合模态。

这里给了五个元宇宙体现的例子,咱们从最下面沿着逆时针方向看一下:如果你喜爱的游戏能够在其中去建设本人的世界,与别人交互,这是元宇宙的体现;如果最近加入过无论是因公(meeting)或因私(party),没有真人呈现而是用数字的 avatar 呈现,这也是元宇宙的体现;如果带了头盔或者眼镜去体验 AR、VR 所赋予的虚拟环境,也是元宇宙的体现;如果你领有 NFT 或 crypto currency 这些虚构财产,也是元宇宙的体现;最初我感觉比拟有意思的一点是纽约时报认为绝大多数的社交网络也是元宇宙的体现,因为线上和线下的你不是完全一致,线上的你可能有肯定虚构的成分在,所以也是元宇宙的体现。

反对元宇宙和各种 AR/VR 体验从视频技术的角度来看有几大共同点:低延时 高并发 、以及 个性化

后面这两点与现有利用的要求相相似,比方拿直播来说,也有低延时高并发的要求;然而第三点要求,就是个性化的要求,是一个齐全不一样的全新技术撑持。

因为在这些虚构场景下,每一个用户都在谋求本人的体验和个性化的抉择。从阿里云智能的角度来看,个性化对于云计算提出进一步挑战,更高的要求。咱们明天反对一次直播有成千上万甚至上百万的并发量,一次下发服务很多客户。

然而,如果每个客户都有本人的个性化要求,每次下发只能反对十几或几十有相似要求的客户,那么对云上视频解决能力的品质和吞吐率都提出了更高的要求,要求解决能力有数量级上的晋升。

所以我认为未来要对于视频解决和 deliver 做好技术撑持,云上定制化硬件是必然的技术趋势。

5. 总结

最初咱们对明天的分享做一个总结。

首先咱们介绍了 Ali266,阿里云自研的 VVC 编解码器,首先 Ali266 对 VVC 这个最新视频规范提供残缺的编解码能力,速度能够达到实时高清,目前咱们最快的速度是能够达到 1080p30 帧编码速度。

Ali266 压缩性能卓越,在 Slow 品位上达到 50% 的带宽节俭,在实时 Fast 品位上达到 40% 的带宽节俭,因而 Ali266 从品质优先到速度优先能够笼罩不同业务的需要。同时咱们非常高兴的汇报咱们正在与优酷进行深度单干,心愿通过 Ali266 技术落地优酷,助力优酷降本增质、赋能新业务技术撑持。

展望未来的话,从技术上来说,下一代编解码规范还是须要拿到更好的压缩率,然而如何进行框架的抉择咱们还在摸索,明天还没有定论。传统框架下的 ECM 相比 VVC 能拿到 15% 的性能增益,但与 40%、50% 的要求还有间隔。AI 编码能够给出很好性能后劲,然而从性价比来说还没有达到要求,须要长足进步。

从利用角度来说,元宇宙会带给大家更加丰盛的虚构体验,也能够撑持很多新的利用的成长。要让元宇宙成为事实的话,在云计算的方面须要尽快实现高质量高吞吐的个性化云计算能力,应答新兴利用所提出的挑战。

最初,尽管之前没有提到,然而虚拟世界的体验也须要更加敌对、也就是更轻更普惠的 AR/VR 终端设备早日退场。

本次分享到此结束,非常感谢大家,也特地要感激主办方 LVS 给我这个机会做分享,因为疫情的影响,十分遗憾与大家不能进行面对面交换,如果对我此次分享的内容有任何问题或心愿进一步探讨,欢送大家在公众号后盾留言。

「视频云技术」你最值得关注的音视频技术公众号,每周推送来自阿里云一线的实际技术文章,在这里与音视频畛域一流工程师交换切磋。公众号后盾回复【技术】可退出阿里云视频云产品技术交换群,和业内大咖一起探讨音视频技术,获取更多行业最新信息。

正文完
 0