关于云计算:多维演进智能编码的深度进化

52次阅读

共计 3710 个字符，预计需要花费 10 分钟才能阅读完成。

咱们在谋求怎么的编码将来？

无处不在的视频浸透、井喷式的流量增长、多元的场景技术需要、用户对视频体验的“不将就”……音视频行业的疾速倒退却随同着“编码标准降级速度迟缓”、“硬件红利见底”、“编码复杂度带来的老本问题”等泛滥挑战。

视频编码还“卷”得动吗？

到底怎么的视频编码技术，能力满足既要又要的体验与老本均衡？

面向机器视觉的视频编码、虚拟现实视频、智能化利用视频 …… 前浪翻滚而来，视频编码的“未来式”如何开展？

本文由 IMMENSE、「阿里云视频云」视频编码服务端负责人陈高星和 LiveVideoStack 策动、采访而成。

视频编解码技术约 10 年晋升 50% 压缩率，但这“十年磨一剑”的降级速度，早就跟不上视频信息量收缩的速度。

新编码标准带来的编码复杂度减少，远高于 CPU 解决能力的加强，随之面临编码技术难以“普惠”的难题。

随着视频在更多利用场景的扩大摸索，繁多编码标准已难笼罩多种视频利用需要……

显然，一边是 AR、VR 时代的到来，以及 4K、8K 的高分辨率，60-120fps 高帧率，10-12bit 宽色域，让视频自身的信息量数倍收缩；一边，是资源重叠置换压缩效率，和“摩尔定律”的提高曾经走到了“止境”。加之，视频的“超低延时”对编码速度的要求，这所有，让 视频体验、带宽、计算成本、编码速度 之间的 “矛盾” 越发显著。

于是，咱们始终面临更高清、更实时、更高效的编码需要，也面临技术与需要之间的诸多“矛盾”。

在这些仿佛难以均衡的“矛盾”背景下，也衍生出许多值得进一步探讨的问题：

➤ 现有的编码标准在哪些方面关注不够？

➤ 如何先用好现有的编码标准？

➤ 现有的视频编码技术笼罩不到的维度有哪些？

➤ 除了码率和品质，视频编码是否须要关注更多的指标？

➤ 如何突破资源重叠置换视频压缩效率晋升的技术思维惯性？

……

从需要、矛盾、问题中，可引出深一层的认知：编码优化的指标不再仅仅思考传统的主客观品质、复杂度、时延等维度，还有与 AI 解决能力的敌对性、多平台下性能的适配性等。

问题的提出总是随同着解题思路和技术方向的抉择。

于是，推动着编解码架构从传统向更智能、更兼容的方向演进。

当 2015 年阿里云视频云向业界提出了“窄带高清”的概念，并在 2016 年正式推出窄带高清技术品牌并产品化，这种既“降低码率”又“进步清晰度”的兼顾之方，简直成为了业界的通用解法。

然而，一直演变之下到以后，业内开始风行一种“内卷”，即，适度谋求 ” 某主观指标数据 ” 的优化。

然而，以“人”为核心的视频化视角，在最终的用户体验上，视频都应是更关注主观体验的。相同的是，在理论研发过程中，特地是编码器的优化上，通常都是依赖如：PSNR、SSIM、VMAF-NEG 这样的“有源主观指标”。

诚然，在大部分状况下，主观品质的晋升都能肯定水平反映到主观品质的晋升上，特地是当样本数足够大，且主观品质晋升较大时，主观指标和主观感触能出现一致性。

不过在窄带高清的优化实际中，也存在一些主客观优化“不统一”的状况。

比方：H.265 规范中的 SAO 工具，用于改善振铃效应，但随之会升高 VMAF 和 VMAF-NEG 分数；

X265 编码器里的 PSY 工具，在主观品质上能 减少高频细节，然而对于主观指标都是不敌对的；

又比方：JND 和 ROI 技术，在 开掘视觉失真冗余 的过程中，也不可避免地会造成有源主观指标的降落；

阿里云自研的码控算法，会对容易呈现“块效应”等主观问题的区域调配更多码率以爱护主观品质，但这也会导致主观品质降落；

还有，前解决加强中的 各种修复生成技术，会间接对源进行批改，这类技术对于旨在评估“与源差别大小”的有源主观指标，都是不太敌对的。

此外，针对繁多主观指标的“适度优化”，也有可能造成繁多主观指标与主观体验相悖的状况 ……

因而，单项主观指标的数值或高或低，都不应是视频编码优化谋求的“终极目标”。

在上述技术理念和智能编码架构的撑持下，“窄带高清 2.0”从人眼视觉模型登程，将编码器的优化指标从“保真度更高”调整为“主观体验更好”。

这能够从视觉编码和细节修复两个视角来看。

在视觉编码维度，“窄带高清 2.0”采纳基于场景和内容的帧类型决策和块级码率调配，模式决策采纳 面向主观敌对的算法。

在内容自适应编码局部，思考到人眼感知的视频空间域的亮度、对比度以及时域失真是不间断的，通过基于恰可察觉失真（JND）自适应编码技术，抛弃视觉冗余信息，在主观品质不产生明显降低的状况下，能够 大幅节俭带宽；同时，通过 ROI 码控技术调整码率调配策略，进一步晋升人眼感兴趣区域的清晰度。

在细节修复维度，“窄带高清 2.0”采纳基于 生成反抗网络（GAN） 的细节修复生成技术，在修复因编码压缩引起的马赛克效应和边缘毛刺的同时，“脑补” 生成一些天然的纹理细节，使得画面纹理细节更丰盛、更天然、更有质感。

更要害的是，应答垂直细分场景，咱们的模型会对场景特色会实现更为智能的纹理生成。

比方：对于演唱会场景，曾为百视 TV 专属打造了 Idol 人像定制模版，针对优化人像区域的细节修复生成成果，将 Idol 的“怼脸直拍”，通过直播清晰还原送到观众屏幕前。

再比方：在 NBA 篮球比赛场景，AI 修复模型增强了篮球场地板纹理、球员远景特写、球场边界线、高空广告字母、球衣上数字、篮球网等篮球体育赛事特有元素的修复生成，大大晋升画面清晰度和整体视觉生能源体现。

也正是，唯有轻微之处，方能见技术之极。

正如“清晰度”和“带宽”是“窄带高清”须要均衡的天平两端，在以后“降本增效”的大环境之下，“体验”和“老本”的“非零和博弈”，肯定是绕不开的话题。

老本（计算复杂度），体验（品质），这两者尽管是“trade-off”的衡量关系，但在某种程度上，也能够单方面优化晋升。

比方，通过算法优化，在复杂度不变的状况下，将编码器的 R - D 曲线朝着更有性价比的方向优化；同时，通过高性价比的自适应疾速算法的设计，也能够将品质的晋升转化为老本的收益；又或者，通过底层优化并与计算平台的充沛联合，开掘 异构编码 的后劲，能够进一步在品质不变的状况下升高计算成本。

当然，在“让高压缩率算法和 AI 真正普惠”的路上，阿里云视频云所做的不仅于此。

与视频编码相似，在视频解决畛域，深度学习从成果上曾经远超传统办法，同时还在一直地疾速进化，但深度学习对计算资源的高耗费，成为妨碍其在理论利用中宽泛应用的次要起因。

阿里云视频云 深度自研编码内核，包含 s264、s265，落地 100+ 算法，反对直播、点播、RTC 场景，绝对于开源，全场景 20%+ 压缩率当先。

同时，咱们引入AI 辅助的编码决策，在码率调配和模式决策上晋升内容自适应能力，极致开掘视觉冗余，等同主观下，码率节俭 50%。

在算法层面和软件层面塑造的无限差别之上，要想塑造老本劣势，必须将软件、算法与操作系统、硬件、乃至芯片，全线联动。

此基础上，基于自研 倚天 710 芯片，视频云与倚天团队联结投入ARM 视频编码优化，深度重构了视频编码数据构造、并行框架，从新调优了疾速算法策略，从软件、汇编、硬件层面跨层深度优化，塑造极致性能。

同时，咱们与平头哥深度单干，共建 “软硬联合” 自研芯片竞争力，通过算法、减速库、驱动、固件一体化设计，一直摸索翻新音视频技术，增强在更多视频利用、更多终端设备上的普适性，从而带来更节俭、更低耗、更高清、更实时的硬核编码力，赋能千行百业的视频化需要。

回顾文章结尾的“矛盾”与问题，面对激增的海量视频数据、多元的视频内容模式，以及减速扩充的行业利用范畴，视频编码如何“进化”的答案，也暗藏在行业的急速迭代之中。

如何实现更高压缩效率并匹配多样的细分场景？ AI codec 能实现比传统压缩规范更高的压缩效率，并可能在一些垂直场景有落地的机会，例如：业界已有基于深度学习的图像压缩，落地于卫星图像的压缩传输；

面对将来视频数据的生产场景不再单纯局限于人眼视觉，服务于机器视觉的视频编码也将迎来微小利用市场。阿里云视频云团队已与高校深度单干，布局“面向人 - 机视觉的全新编码范例：高层语义与低层信号相结合的图像编码计划”；

而对于近期大热的苹果 VisionPro 的推出，作为视频行业工作者，非常乐见 VR 生态能在苹果的率领下，真正打出一片市场。因而，一些相干的沉迷式编码标准如 MIV，点云编码，动静网格编码等技术，也将逐渐投入钻研……

敬请关注 7 月 28 日

LiveVideoStackCon2023 上海站

阿里云视频云专场

阿里云智能高级算法专家带来演讲

《“多”维演进：智能化编码架构的钻研与实际》

共探“智能”编码技术的深度进化

🔗点击链接立刻报名专场：https://alibaba-cloud.livevideostack.cn/ticket

正文完

云计算

发表至：云计算

2023-07-05

0

关于云计算:如何简单的管理API

关于云计算:Go-语言实现-WebSocket-推送

关于云计算:企业在2022-年应避免这-6-大云成本优化问题

关于云计算:Prometheus-Operator-教程根据服务维度对-Prometheus-分片

关于开源:阿里云携手开放原子开源基金会倡议发起云原生工作委员会两大开源项目达成捐赠意向

关于云计算:多维演进智能编码的深度进化

需要很多，矛盾更多

技术迭代速度凝固了吗？摩尔定律走到止境了吗？

终极目标，有些偏倚

在优化编解码时，咱们到底须要谋求什么？

轻微之处，方见视界

咱们的编解码视界里，能够有哪些精妙解法？

绕不开的“老本、老本、老本”

老本和体验的“非零和博弈”, 编解码怎么摆平？

软硬联合，是破解编码天花板之技吗？

没有设想，就没有进化

苹果的 VisonPro，透射出编码的将来吗？

将来已来，智能编码架构的“进化”，将会带来怎么的“新生”？

Just My Socks（注册教程内含优惠码）

关于云计算:多维演进智能编码的深度进化

需要很多，矛盾更多

技术迭代速度凝固了吗？摩尔定律走到止境了吗？

终极目标，有些偏倚

在优化编解码时，咱们到底须要谋求什么？

轻微之处，方见视界

咱们的编解码视界里，能够有哪些精妙解法？

绕不开的“老本、老本、老本”

老本和体验的“非零和博弈”, 编解码怎么摆平？

软硬联合，是破解编码天花板之技吗？

没有设想，就没有进化

苹果的 VisonPro，透射出编码的将来吗？

将来已来，智能编码架构的“进化”，将会带来怎么的“新生”？

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）