共计 3813 个字符,预计需要花费 10 分钟才能阅读完成。
智码超清背景介绍
随着 5G、AI 技术倒退,视频行业迎来一个高速的增长期,视频在网络带宽的占 2019 年为 43%,预计到 2025 年占比将高达 76%,依然放弃着高速的增长,其中有大部分是超高清的视频,据某权威机构预测,2022 年超高清的视频规模无望达到 4 万亿人民币,相比于 2019 年的 1.2 万亿人民币翻了 3 倍之多,可见超高清市场的规模有很大的空间。
咱们目前处于迫近实在,根本达到实在的阶段。从分辨率来讲咱们从标清、高清缓缓往超高清的方向倒退,从动静范畴、色域和视角范畴来看,从规范动静范畴到高动静范畴,还有窄色域、窄视角到宽色域、宽视角的方向倒退,将来必定会朝着超过实在的视觉通信互动媒体方向倒退,其中会涌现更多的视频技术,包含更高的分辨率,还有多视角、多自由度,还有超低时延、实时互动、实时渲染、数字孪生等技术。
咱们大家了解的高清视频是指 720P 和 1080P 的分辨率的视频,超清指的更大的分辨率,比如说 2K、4K、5K、8K,随着分辨率尺寸越来越大,网络带宽传输的老本也越来越高,因而须要有一套低成本高质量的压缩视频的算法。基于以上背景网易云信开发了智码超清的自研算法,不仅可能给视频带来极致的压缩,而且可能带来画质的加强。
横向比照来看,提供智码超清业务的厂商有很多。下图右边是国内厂商,包含大家相熟的阿里云、腾讯云、百度云等。下图左边是国外厂商,包含亚马逊、YouTube、NETFLIX 等,可见智码超清业务是十分重要,且十分根底的工具。
智码超清转码的关键技术
下图是视频转码在整个直播、点播数据流的地位和作用,这个图是直播、点播畛域常见的流媒体推流和拉流的数据流的过程,能够看出从刚开始的视频源到转码服务器转码,转码后又通过打包和加密发送到不同的服务器上。最初如果客户端有申请,咱们会从就近的服务器拉流到客户端来播放显示。咱们的转码处在比拟靠前的地位,转码后的码流如果越小,前面的网络传输的一系列老本将大大降低,而且码流的品质间接影响在客户端播放时的主观体验,所以这里的转码要做到智码超清。
智码超清转码的关键技术点分三块。第一块是视频前解决,第二块是视频编码,第三块是视频后处理。
视频前解决
视频前解决包含内容分析与画质晋升两局部。
其中内容分析包含两个方面:
- 第一是场景辨认:通过场景辨认,辨别出不同的场景,包含游戏、动画片、动作片、视频会议等。针对不同的场景,咱们会更精密的抉择不同的前解决策略和编码工具,这样前解决和编码能够做到场景自适应。
- 第二是 ROI 检测:这里指基于深度学习的 ROI 区域检测,咱们把检测进去的 ROI 区域传给前解决模块和编码模块。在前解决和编码模块外部对 ROI 区域的画质做重点的加强修复。
画质晋升包含视频加强、色调加强、视频降噪三局部。
- 视频加强和色调加强,是基于深度学习的办法对原始视频做加强,从主观上对画质会有显著晋升。
- 视频降噪,是在噪声评估之后对有噪声的视频做降噪解决,不仅可能带来画质的晋升,而且对视频编码的压缩率也有很大的帮忙,所以视频降噪是十分有用的前解决工具。
视频编码
智能编码方面:包含感知编码、ROI 编码,还有精准的帧级和行级码控。
编码内核方面:有自研的 NE264、NE265,还有反对公有协定的 NEVC。
视频后处理
次要是做画质晋升,这里包含视频超分、视频加强。
智码超清转码的技术解析
智码超清的技术解析之超分技术
超分这里具体指的是超分辨率,是从低分辨率到高分辨率。超分算法个别是部署在端侧,所以要做到又快又好,因而咱们自研了一套基于轻量级网络的实时超分算法。
这里自研的轻量级网络咱们称为云信 RFDECB 网络结构,下图详细描述了网易云信的 RFDECB 网络结构,右边是这个网络结构的骨干图,能够看到是由不同级的 ECB 模块和卷积模块形成,通过提取不同级的残差特色和 ECB 输入重参数化的构造能够更好提取图像特色,最初通过交融失去高分辨率的图像。左边对 ECB 模块的具体构造,咱们采纳拉普拉斯算子和索贝尔算子来提取图像的边缘特色,这样能够更好的失去超分的成果。
另外,在训练完结之后咱们会把 ECB 模块中的多分支的网络结构通过开展、合并,最初变成一个非常简单的卷积,这样在推理过程和工程化实现中会有比拟大的效率晋升。
咱们自研的超分算法加入了往年的 CVPR2022 年的超分较量,在综合性能赛道咱们超过了包含来自字节、阿里、B 站、华为、南京大学、清华大学等选手,取得了综合性能赛道的冠军,在业界做到最好的程度。
下图右边是咱们超分技术的成果展现,右边是没有做超分,左边是有咱们的超分算法。能够看到右边的地球仪和文字是比拟含糊的,通过超分算法之后地球仪和文字局部会分明很多,这是咱们超分算法带来的画质加强。
下图左边是咱们自研的挪动端超分和业界超分端上计划的解决比照,都是在雷同的 480P 分辨率下做两倍超分。能够看出,绝对于业界计划 1 的 10 毫秒,咱们还能够再升高 50%,达到 5 毫秒的速度。所以咱们能够部署在更多低性能的挪动端,能够给更多的客户带来画质晋升的体验。
上面讲一下编码技术,首先是人眼感知编码技术,下图右边是 JND 的基本原理,JND(Just Noticeable Distortion)最小可察觉的误差,是利用人眼的视觉冗余进一步压缩视频。从这个图中能够看出,编码外部应用的失真码率 RDO 曲线是间断的突曲线,咱们人眼感知的其实不是间断的,而是阶梯状的。能够比照看出,如果利用阶梯状的曲线来替换原来的 RDO 曲线,在雷同的失真的状况下能够应用更少的码率。
传统的 JND 算法是以图像的底层特色为主,包含图像的纹理、边缘、亮度、色彩。网易云信自研的 JND 感知编码,除了在传统的 JND 的算法根底上退出了基于深度学习的高层特征分析,可能辨认出图像中的文字、人脸、前景之外,还有其余的显著性区域,并对这些不同的特色做了不同的 JND 的公式。咱们把不同特色的 JND 的公式利用在编码,这样能够大大降低咱们的码率。这一套算法上线落地可能带来均匀 15% 以上的码率节俭,在有些非凡的场景能够带来更多的码率节俭。
第二是前解决和编码的联结优化。这里次要讲的是 ROI 编码,咱们基于深度学习的前解决检测出 ROI 区域,如图外面的 ROI 区域是人脸和文字,咱们把人脸和文字区域的地位传给前面的编码模块,在编码模块对 ROI 做主观品质的爱护,这里不仅是简略的把 ROI 区域的 QP 调小,而且还针对文字局部,咱们应用 transform skip 等编码工具来晋升文字的主观成果。对非 ROI 区域咱们做降码率解决,这样能够整体节俭比拟多的码率。
下图是 NE-CODEC 的内核优化。咱们自研了有 20 多个翻新的编码算法,散布在不同的编码内核的不同模块,包含有 GOP 级的预剖析,帧级的预剖析,还有预测、转换和量化局部。在 GOP 级的预剖析里咱们自研了一套自适应的分层 B 的参考构造,包含 GOP8、GOP16、GOP32。针对 CU TREE 也做了自适应的分层构造。
在帧级的预剖析次要是 JND 和 ROI 的优化,上文曾经提到过了。
在预测模块咱们也有很多的疾速算法,包含多参考帧的疾速抉择。还有在转换模块,咱们对当初的 DCT 模块做深度的减速,还有咱们提出了疾速的 RDOQ 算法。另外还联合了 JND 做了频域的 JND 的算法。在量化局部咱们提出了有一个 SSIM-RDO 的算法,这个算法能够保障在雷同的 SSIM 主观指标的状况下能够节俭更多的码率。通过这些很多的疾速算法一直的迭代优化,最终造成了一套比较稳定的 NE-CODEC 的内核。
上图左边是 NE265 和友商 CODEC 的比照测试,能够看出在 Online 模式,也就是 30fps 档位下,NE265 在 VMAF 指标上优于业界的各大厂商。从这个图中也能够看出绝对于开源的 X265,在 VMAF 雷同的状况下 NE265 还能够节俭 45% 的码率。
在云信 NE265 编码下,视频不仅有主观感触的晋升,在雷同码率下咱们的 VMAF 主观指标也从 89 提到 97 分,所以无论从主观指标还是主观体验都有很大的晋升。
智码超清的业务价值
接下来分享的内容是智码超清的业务价值。网易云信的智码超清曾经在公司外部的网易传媒、网易云音乐直播、有道视频、网易元气全量上线,以网易传媒为例,下图右边是在网易传媒的利用,每天能够跑 40 万分钟的视频转码,上线后从原来每天的 80G 带宽降落到每天 32G,节俭了 60% 以上的带宽。左边是网易云信本人的转码服务器,每天也有超过 10 万分钟的转码时长。
将来瞻望
更高清的品质
咱们先看更高质量,这里提两点,一点是超清视频的多方位的倒退,一种是沉迷式的体验。多方位倒退能够参考下图左侧,能够看到视频指标除了分辨率越来越大之外,其余的视频指标也在一直倒退,包含色深,从 8bit、10bit 倒退到 12bit,色域从窄色域到宽色域,动静范畴从窄动静到宽动静。帧率也从 30、60 倒退到 120。沉迷式的体验能够参考右侧,我置信随着将来 5G 的遍及,比方 AR、VR 的体验会做的越来越好。
更低带宽
下图来自英伟达的 AI 的视频压缩。左侧能够看到用的惯例的 H264 做压缩,每帧的大小大略是 97KB,也就是咱们每帧须要 97KB 带宽的网络传输。右侧是通过英伟达的 AI 视频压缩之后每帧的大小能够降到 0.1KB,这个是相当惊人的。原理是仅仅传输咱们右边图上的人脸的关键点。在接收端把人脸关键点重建进去,这样能够在传输过程中大大节俭带宽,这是一个比拟好的想法。我置信将来 AI 和视频编码的活泼联合也是将来比拟重要的方向。