咱们在谋求怎么的编码将来?
无处不在的视频浸透、井喷式的流量增长、多元的场景技术需要、用户对视频体验的“不将就”……音视频行业的疾速倒退却随同着“编码标准降级速度迟缓”、“硬件红利见底”、“编码复杂度带来的老本问题”等泛滥挑战。
视频编码还“卷”得动吗?
到底怎么的视频编码技术,能力满足既要又要的体验与老本均衡?
面向机器视觉的视频编码、虚拟现实视频、智能化利用视频 …… 前浪翻滚而来,视频编码的“未来式”如何开展?
本文由 IMMENSE、「阿里云视频云」视频编码服务端负责人陈高星和 LiveVideoStack 策动、采访而成。
需要很多,矛盾更多
技术迭代速度凝固了吗?摩尔定律走到止境了吗?
视频编解码技术约 10 年晋升 50% 压缩率,但这“十年磨一剑”的降级速度,早就跟不上视频信息量收缩的速度。
新编码标准带来的编码复杂度减少,远高于 CPU 解决能力的加强,随之面临编码技术难以“普惠”的难题。
随着视频在更多利用场景的扩大摸索,繁多编码标准已难笼罩多种视频利用需要……
显然,一边是 AR、VR 时代的到来,以及 4K、8K 的高分辨率,60-120fps 高帧率,10-12bit 宽色域,让视频自身的信息量数倍收缩;一边,是资源重叠置换压缩效率,和“摩尔定律”的提高曾经走到了“止境”。加之,视频的“超低延时”对编码速度的要求,这所有,让 视频体验、带宽、计算成本、编码速度 之间的 “矛盾” 越发显著。
于是,咱们始终面临更高清、更实时、更高效的编码需要,也面临技术与需要之间的诸多“矛盾”。
在这些仿佛难以均衡的“矛盾”背景下,也衍生出许多值得进一步探讨的问题:
➤ 现有的编码标准在哪些方面关注不够?
➤ 如何先用好现有的编码标准?
➤ 现有的视频编码技术笼罩不到的维度有哪些?
➤ 除了码率和品质,视频编码是否须要关注更多的指标?
➤ 如何突破资源重叠置换视频压缩效率晋升的技术思维惯性?
……
从需要、矛盾、问题中,可引出深一层的认知:编码优化的指标不再仅仅思考传统的主客观品质、复杂度、时延等维度,还有与 AI 解决能力的敌对性、多平台下性能的适配性等。
问题的提出总是随同着解题思路和技术方向的抉择。
于是,推动着编解码架构从传统向更智能、更兼容的方向演进。
终极目标,有些偏倚
在优化编解码时,咱们到底须要谋求什么?
当 2015 年阿里云视频云向业界提出了“窄带高清”的概念,并在 2016 年正式推出窄带高清技术品牌并产品化,这种既“降低码率”又“进步清晰度”的兼顾之方,简直成为了业界的通用解法。
然而,一直演变之下到以后,业内开始风行一种“内卷”,即,适度谋求 ” 某主观指标数据 ” 的优化。
然而,以“人”为核心的视频化视角,在最终的用户体验上,视频都应是更关注主观体验的。相同的是,在理论研发过程中,特地是编码器的优化上,通常都是依赖如:PSNR、SSIM、VMAF-NEG 这样的“有源主观指标”。
诚然,在大部分状况下,主观品质的晋升都能肯定水平反映到主观品质的晋升上,特地是当样本数足够大,且主观品质晋升较大时,主观指标和主观感触能出现一致性。
不过在窄带高清的优化实际中,也存在一些主客观优化“不统一”的状况。
比方:H.265 规范中的 SAO 工具,用于改善振铃效应,但随之会升高 VMAF 和 VMAF-NEG 分数;
X265 编码器里的 PSY 工具,在主观品质上能 减少高频细节,然而对于主观指标都是不敌对的;
又比方:JND 和 ROI 技术,在 开掘视觉失真冗余 的过程中,也不可避免地会造成有源主观指标的降落;
阿里云自研的码控算法,会对容易呈现“块效应”等主观问题的区域调配更多码率以爱护主观品质,但这也会导致主观品质降落;
还有,前解决加强中的 各种修复生成技术,会间接对源进行批改,这类技术对于旨在评估“与源差别大小”的有源主观指标,都是不太敌对的。
此外,针对繁多主观指标的“适度优化”,也有可能造成繁多主观指标与主观体验相悖的状况 ……
因而,单项主观指标的数值或高或低,都不应是视频编码优化谋求的“终极目标”。
轻微之处,方见视界
咱们的编解码视界里,能够有哪些精妙解法?
在上述技术理念和智能编码架构的撑持下,“窄带高清 2.0”从人眼视觉模型登程,将编码器的优化指标从“保真度更高”调整为“主观体验更好”。
这能够从视觉编码和细节修复两个视角来看。
在视觉编码维度,“窄带高清 2.0”采纳基于场景和内容的帧类型决策和块级码率调配,模式决策采纳 面向主观敌对的算法。
在内容自适应编码局部,思考到人眼感知的视频空间域的亮度、对比度以及时域失真是不间断的,通过基于恰可察觉失真(JND)自适应编码技术,抛弃视觉冗余信息,在主观品质不产生明显降低的状况下,能够 大幅节俭带宽;同时,通过 ROI 码控技术调整码率调配策略,进一步晋升人眼感兴趣区域的清晰度。
在细节修复维度,“窄带高清 2.0”采纳基于 生成反抗网络(GAN) 的细节修复生成技术,在修复因编码压缩引起的马赛克效应和边缘毛刺的同时,“脑补” 生成一些天然的纹理细节,使得画面纹理细节更丰盛、更天然、更有质感。
更要害的是,应答垂直细分场景,咱们的模型会对场景特色会实现更为智能的纹理生成。
比方:对于演唱会场景,曾为百视 TV 专属打造了 Idol 人像定制模版,针对优化人像区域的细节修复生成成果,将 Idol 的“怼脸直拍”,通过直播清晰还原送到观众屏幕前。
再比方:在 NBA 篮球比赛场景,AI 修复模型增强了篮球场地板纹理、球员远景特写、球场边界线、高空广告字母、球衣上数字、篮球网等篮球体育赛事特有元素的修复生成,大大晋升画面清晰度和整体视觉生能源体现。
也正是,唯有轻微之处,方能见技术之极。
绕不开的“老本、老本、老本”
老本和体验的“非零和博弈”, 编解码怎么摆平?
正如“清晰度”和“带宽”是“窄带高清”须要均衡的天平两端,在以后“降本增效”的大环境之下,“体验”和“老本”的“非零和博弈”,肯定是绕不开的话题。
老本(计算复杂度),体验(品质),这两者尽管是“trade-off”的衡量关系,但在某种程度上,也能够单方面优化晋升。
比方,通过算法优化,在复杂度不变的状况下,将编码器的 R - D 曲线朝着更有性价比的方向优化;同时,通过高性价比的自适应疾速算法的设计,也能够将品质的晋升转化为老本的收益;又或者,通过底层优化并与计算平台的充沛联合,开掘 异构编码 的后劲,能够进一步在品质不变的状况下升高计算成本。
当然,在“让高压缩率算法和 AI 真正普惠”的路上,阿里云视频云所做的不仅于此。
与视频编码相似,在视频解决畛域,深度学习从成果上曾经远超传统办法,同时还在一直地疾速进化,但深度学习对计算资源的高耗费,成为妨碍其在理论利用中宽泛应用的次要起因。
阿里云视频云 深度自研编码内核,包含 s264、s265,落地 100+ 算法,反对直播、点播、RTC 场景,绝对于开源,全场景 20%+ 压缩率当先。
同时,咱们引入AI 辅助的编码决策,在码率调配和模式决策上晋升内容自适应能力,极致开掘视觉冗余,等同主观下,码率节俭 50%。
软硬联合,是破解编码天花板之技吗?
在算法层面和软件层面塑造的无限差别之上,要想塑造老本劣势,必须将软件、算法与操作系统、硬件、乃至芯片,全线联动。
此基础上,基于自研 倚天 710 芯片,视频云与倚天团队联结投入ARM 视频编码优化,深度重构了视频编码数据构造、并行框架,从新调优了疾速算法策略,从软件、汇编、硬件层面跨层深度优化,塑造极致性能。
同时,咱们与平头哥深度单干,共建 “软硬联合” 自研芯片竞争力,通过算法、减速库、驱动、固件一体化设计,一直摸索翻新音视频技术,增强在更多视频利用、更多终端设备上的普适性,从而带来更节俭、更低耗、更高清、更实时的硬核编码力,赋能千行百业的视频化需要。
没有设想,就没有进化
苹果的 VisonPro,透射出编码的将来吗?
回顾文章结尾的“矛盾”与问题,面对激增的海量视频数据、多元的视频内容模式,以及减速扩充的行业利用范畴,视频编码如何“进化”的答案,也暗藏在行业的急速迭代之中。
如何实现更高压缩效率并匹配多样的细分场景? AI codec 能实现比传统压缩规范更高的压缩效率,并可能在一些垂直场景有落地的机会,例如:业界已有基于深度学习的图像压缩,落地于卫星图像的压缩传输;
面对将来视频数据的生产场景不再单纯局限于人眼视觉,服务于机器视觉的视频编码也将迎来微小利用市场。阿里云视频云团队已与高校深度单干,布局“面向人 - 机视觉的全新编码范例:高层语义与低层信号相结合的图像编码计划”;
而对于近期大热的苹果 VisionPro 的推出,作为视频行业工作者,非常乐见 VR 生态能在苹果的率领下,真正打出一片市场。因而,一些相干的沉迷式编码标准如 MIV,点云编码,动静网格编码等技术,也将逐渐投入钻研……
将来已来,智能编码架构的“进化”,将会带来怎么的“新生”?
敬请关注 7 月 28 日
LiveVideoStackCon2023 上海站
阿里云视频云专场
阿里云智能高级算法专家带来演讲
《“多”维演进:智能化编码架构的钻研与实际》
共探“智能”编码技术的深度进化
🔗点击链接立刻报名专场:https://alibaba-cloud.livevideostack.cn/ticket