关于视频:从技术全景到场景实战透析窄带高清的演进突破

45次阅读

共计 4464 个字符,预计需要花费 12 分钟才能阅读完成。

随着 5G 时代的到来,互联网短视频、电影电视剧、电商直播、游戏直播、视频会议等音视频业务呈井喷式倒退。

作为通用云端转码平台,阿里云视频云的窄带高清须要解决海量、不同品质的视频。对于中高质量的视频,现有的窄带高清 1.0 就能提供称心的转码成果,并带来达 30% 的带宽老本升高;而对于有显著压缩失真和成像噪声的低质量视频,须要使用性能更好的窄带高清 2.0 进行去压缩失真、去噪和加强解决从而失去更好的观看体验。

在 2022 稀土开发者大会上,阿里云智能视频云技术专家周明才以《阿里云窄带高清的演进冲破与场景实战》为主题,深度分享阿里云视频云在窄带高清上的研发思考与实际。

01 窄带高清的源

起谈及窄带高清之前,先来聊聊一般的云端转码流程。转码实质上是一个先解码再编码的过程。从下图能够看到,一般云端转码是在用户端先造成一个原始视频,通过编码之后以视频流的模式传到服务端,在服务端解码之后做转码,而后再编码通过 CDN(内容散发网络)散发进来,此时一般转码次要的性能就是做视频格式的对立,并在肯定水平上降低码率。

窄带高清是什么?它与一般转码的次要区别是什么?通过窄带高清的字面意思能够了解,“窄带”是指让视频通过窄带高清转码之后,对带宽的需要变得更小。同时,“高清”是指通过转码后的画质依然可能放弃高清、丰盛的视觉体验。

上图的下半局部也就是窄带高清的流程,与一般转码流程不同点在于,在云端做了解码之后,窄带高清还会对视频品质做加强解决,以及利用编码信息来辅助晋升视频品质。通过品质晋升后,再用针对主观品质做过优化的编码器进行编码,最初进行散发。

总结来说,窄带高清实质上解决的是品质晋升和压缩的问题,其次要指标是谋求品质、码率和老本的最优平衡。阿里云早在 2015 年就曾经提出了窄带高清这一概念。在 2016 年正式推出窄带高清这一技术品牌并且进行了产品化。

往年,阿里云推出了窄带高清 2.0 极致修复生成版本。相较于先前版本,最大特点是能生成细节纹理做到极致修复。

窄带高清全景图

窄带高清在做自适应参数决策时次要思考三个维度:业务场景、视频热度、视频内容。

因为业务场景的不同,比方电商直播、游戏直播、赛事直播,所须要的视频加强和编码参数不一样;对于一些高热内容,如:在手淘场景中能够用窄带高清 2.0 启动二次转码来实现品质的进一步晋升和码率的节俭;在视频内容维度,会针对以后的视频做一些 High-level 和 Low-level 的剖析,High-level 蕴含语义的剖析,特地是 ROI 的检测,Low-level 包含视频压缩水平、含糊水平、噪声水平的视频品质剖析。

依据以上这些维度的剖析,能够失去自适应参数的决策后果。依据此后果,窄带高清再去做相应的视频修复和视频加强。具体来说,视频修复包含强压缩失真、降噪等,视频加强蕴含细节加强、色调加强、对比度加强等。

02 视频内容分析

ROI

ROI 的次要目标是在码率受限或码率统一的状况下,将码率尽可能调配到人眼更关注的区域,比方在电影电视剧中,观众会更多关注配角的脸。

基于 ROI 的解决和压缩,有以下两个难点:一是如何失去低成本的 ROI 算法,二是如何基于 ROI 进行码控决策,例如:保障 ROI 区域主观品质晋升的同时,非 ROI 区域的主观品质不会显著降落;同时做到时域间断、不闪动。

在低成本 ROI 计算方面,阿里云自研了自适应决策的人脸检测跟踪算法,这是一款低成本、高精度的算法。在极大局部工夫只须要做计算量极小的人脸跟踪,只有少部分工夫做人脸检测,从而在保障高精度的状况下,实现超低老本和疾速 ROI 获取。

从下图表格外面能够看到,阿里云自研算法相比开源人脸检测算法,精度和召回基本上没有损失,同时复杂度和计算耗时有显著数量级的降落。

在有了 ROI 算法之后,须要对场景、视频品质的自适应码率调配进行决策。针对此难题,次要思考与编码器联合,在主观和主观之间获得平衡,同时保障时域的统一。

JND 传统视频压缩办法次要基于信息实践,从预测构造的角度减小时域冗余、空间冗余、统计冗余,但这对视觉冗余开掘是远远不够的。

在 JND 算法里,次要采纳了两个算法,一个是空域 JND 算法,一个是时域 JND 算法,拿到这些 JND 算法后,咱们再基于 MOS 的自适应码控算法,对 QP 做自适应的调配,最终实现在通用场景及主观状况下,码率能够节俭 30% 以上。

03 视频修复加强

细节加强

讲到视频修复加强,提及最多的就是细节加强局部,成果的确会比拟显著。

通常的细节加强基于 UnSharp Mask 的框架。阿里云视频云自研的细节加强算法,有以下三个特点:第一是有更精密的图像纹理细节提取形式,能提取不同尺寸,不同特色的图像纹理构造,加强成果更优;第二,算法能够通过对图像内容纹理构造剖析,依据区域纹理复杂度实现部分区域自适应加强;第三个特点是算法能够和与编码联合,依据编码器的编码信息反馈来自适应调整加强策略。

色调加强

通常采集的视频素材,因为采集的设施或者光线亮度的起因,导致素材色彩可能看起来会比拟黯淡。特地是在短视频场景,这类视频会失去视觉吸引力,因而须要色调加强。

色调加强存在哪些难点问题?具体如何做色调加强?

像 Ffmpeg 外面有 EQ filter,EQ filter 会用 UV 通道去做色调加强。而在咱们的自研算法里,实际上是在 RGB 色彩空间去做加强,即会依据以后色彩点的饱和度,去做一些部分的自适应。同时,也会依据以后画面整体的状况,做一个整体的自适应。

在肤色爱护这块,因为传统的色调加强完之后,人脸区域会泛红,主观视觉上不天然。为了解决这一问题,咱们采纳了肤色爱护的办法,对肤色区域做一个额定的爱护。

这是一个色调加强前跟加强后的成果比照。能够看到加强后的绿色的蔬菜、肉,整个的色彩看着会更丰满,对于美食类视频来讲更可能激发起观众的食欲。

对比度加强

在对比度加强中,应用了经典的 CLAHE 算法,其思路是对一个视频帧做分块,通常分成 8 ×8 个分块,在每一块统计直方图。而后统计直方图的时候,对直方图做一个 Clip,就是所谓的对比度受限的直方图平衡,这次要是克服适度放大噪声的问题。基于 CLAHE 的视频对比度加强其实有一个难点,就是时域闪动问题。这在学术界也是一个较难的问题,到目前为止,还没有失去十分彻底的解决。

降噪

降噪在 ffmpeg 外面有很多算法,比方像 BM3D、BM4D、NLM,这些算法的去噪成果好,然而复杂度十分高,会导致速度慢老本高,可能还须要配合噪声预计模块来一起应用。

另外还有一些绝对平衡的算法,速度比拟快,然而成果不强。如果想要晋升它的去噪强度,通常会引入一些伪影或细节失落的问题。

基于这些调研,咱们自研的降噪算法采纳基于多分辨率合成在下面做滤波框架。首先是对输出图像会做小波合成,失去高频跟低频信息。对于高频做软阈值解决。对于低频采纳双边滤波降噪。通过这种滤波或者软阈值之后,再从新合成回去,就能够达到去噪目标。算法的外围难点在于如何去做减速,使得老本和运算速度可能满足转码要求,尤其是实时转码场景,对速度要求是十分高的。

减速

算法团队对于小波变换减速做了包含整形化很多的尝试,总是存在一些累积误差。所以咱们最初采纳了浮点型减速形式,用 avx2 浮点减速可能达到大略三倍的晋升。

另外是双边滤波这部分的减速,传统的双边滤波基于邻域像素的操作。这种基于邻域的操作其实十分慢的。因而,咱们采纳了 RBF 这个疾速算法,把二维的滤波分解成一维的,同时采纳递归的形式去从左到右,从右到左,从上到下,从下到上,这样的一维操作,就能够实现相似于原始双边滤波成果。通过采纳 RBF 这个疾速算法,咱们能够取得大略 13 倍的减速。此外咱们还做了这种 AVX2 汇编的优化,这块可能额定减速十倍左右。

上图是 SDR+ 的整体效果图,在通过 SDR+ 的解决之后,画面整体的对比度、亮度、清晰度会有很大的晋升,以上这些是针对视频加强做的一些工作。

CDEF 去振铃

首先是 CDEF 去振铃,CDEF 自身是源自于 AV 1 的一个技术,在 CDEF 解决之前,强边缘左近会有很多的毛刺和振铃。通过 CDEF 解决之后,画面中的噪声失去很大的剔除。

CDEF 算法的外围步骤,其实是一个平滑滤波的过程,只不过它的平滑滤波的权重、偏差都做了一些非凡的解决。特地是它的滤波权重,跟以后像素点所在的 8 ×8 像素区域的次要方向是有关系,也就是图中左下角这里展现的,它会去做一个最优方向的一个搜寻。搜寻完了之后,依据主方向来确定它的这个滤波器抽头的方向和权重。此外,CDEF 有两局部的权重,一个是主方向的 WP,另一个是辅助方向 WS。而后对于邻域点和以后点的灰度偏差做截断,这能够防止过平滑。

去压缩失真

除了用 CDEF 基于传统的图像处理算法做去振铃之外,还做了基于深度学习的去压缩失真的算法。这个算法是基于多帧的计划,更利于帧间连续性,不易呈现帧间闪动。“窄带高清”算法分成两大块:一个是品质检测模块,一个是去压缩模块。品质检测模块能够辨认不同品质视频源的压缩水平,而后输入 QP MAP 作为压缩强度掂量指标。另一个是去压缩模块,输出多帧视频和对应帧的 QP MAP,利用 QP MAP 进行自适应去压缩。

极致修复生成

极致修复生成次要是针对画质比拟差的场景,去除较强的压缩失真的同时,生成一些因压缩而失落的细节。在极致修复生成研发中,有以下几个要点:一是构建训练数据(在训练数据构建时,参照了 Real-ESRGAN 的二阶进化思路);二是对比拟敏感的人脸区域,保障人脸生成稳定性;三是做模型压缩时,使得模型计算量低的同时保持良好的成果;四是模型部署。

极致修复的场景实战

在六月份 NBA 决赛直播时,百视 TV 心愿通过应用咱们的窄带高清 2.0 修复生成技术,来晋升他们赛事直播的品质。如两头这个截图所示,截图的上半局部是主播间接推过来的视频成果,下半局部是通过极致修复生成之后的成果。

能够看到修复之后,Youtube 这几个字母边缘会更清晰、洁净,不再毛躁。其余篮球场景相干的,比方球员身后的数字及球员的身材轮廓,也会变得特地清晰。另外也有些生成成果,比方地板上有生成一些纹理,使整体的赛事观感大大晋升。

除了自研的算法,阿里云也有一些高校合作项目,字幕修复就是其中一个合作项目的成绩。能够看图中右下角理论修复字幕例子。该字幕取自一个老片 MV,下面一行是原始 MV 里的字幕,能够看到“话”字的言字旁几条横笔画会有一些粘连,此外文字边缘还有很多的噪声。上面一行是通过字幕修复之后的成果,可能看到会变得很洁净、清晰。

将来,窄带高清技术也将继续降级,通过算法能力进一步晋升修复生成成果、降低码率和优化老本,通过买通前后端的解决,以及摸索落地更多沉迷式场景,如:针对 VR 畛域的窄带高清。与此同时,该项技术也将利用于更多的顶级赛事流动,在老本优化和谐之上,实现视效体验的全新降级。

「视频云技术」你最值得关注的音视频技术公众号,每周推送来自阿里云一线的实际技术文章,在这里与音视频畛域一流工程师交换切磋。公众号后盾回复【技术】可退出阿里云视频云产品技术交换群,和业内大咖一起探讨音视频技术,获取更多行业最新信息。

正文完
 0