关于视频:从技术全景到场景实战透析窄带高清的演进突破

随着 5G 时代的到来，互联网短视频、电影电视剧、电商直播、游戏直播、视频会议等音视频业务呈井喷式倒退。

作为通用云端转码平台，阿里云视频云的窄带高清须要解决海量、不同品质的视频。对于中高质量的视频，现有的窄带高清 1.0 就能提供称心的转码成果，并带来达 30% 的带宽老本升高；而对于有显著压缩失真和成像噪声的低质量视频，须要使用性能更好的窄带高清 2.0 进行去压缩失真、去噪和加强解决从而失去更好的观看体验。

在 2022 稀土开发者大会上，阿里云智能视频云技术专家周明才以《阿里云窄带高清的演进冲破与场景实战》为主题，深度分享阿里云视频云在窄带高清上的研发思考与实际。

起谈及窄带高清之前，先来聊聊一般的云端转码流程。转码实质上是一个先解码再编码的过程。从下图能够看到，一般云端转码是在用户端先造成一个原始视频，通过编码之后以视频流的模式传到服务端，在服务端解码之后做转码，而后再编码通过 CDN（内容散发网络）散发进来，此时一般转码次要的性能就是做视频格式的对立，并在肯定水平上降低码率。

窄带高清是什么？它与一般转码的次要区别是什么？通过窄带高清的字面意思能够了解，“窄带”是指让视频通过窄带高清转码之后，对带宽的需要变得更小。同时，“高清”是指通过转码后的画质依然可能放弃高清、丰盛的视觉体验。

上图的下半局部也就是窄带高清的流程，与一般转码流程不同点在于，在云端做了解码之后，窄带高清还会对视频品质做加强解决，以及利用编码信息来辅助晋升视频品质。通过品质晋升后，再用针对主观品质做过优化的编码器进行编码，最初进行散发。

总结来说，窄带高清实质上解决的是品质晋升和压缩的问题，其次要指标是谋求品质、码率和老本的最优平衡。阿里云早在 2015 年就曾经提出了窄带高清这一概念。在 2016 年正式推出窄带高清这一技术品牌并且进行了产品化。

往年，阿里云推出了窄带高清 2.0 极致修复生成版本。相较于先前版本，最大特点是能生成细节纹理做到极致修复。

窄带高清在做自适应参数决策时次要思考三个维度：业务场景、视频热度、视频内容。

因为业务场景的不同，比方电商直播、游戏直播、赛事直播，所须要的视频加强和编码参数不一样；对于一些高热内容，如：在手淘场景中能够用窄带高清 2.0 启动二次转码来实现品质的进一步晋升和码率的节俭；在视频内容维度，会针对以后的视频做一些 High-level 和 Low-level 的剖析，High-level 蕴含语义的剖析，特地是 ROI 的检测，Low-level 包含视频压缩水平、含糊水平、噪声水平的视频品质剖析。

依据以上这些维度的剖析，能够失去自适应参数的决策后果。依据此后果，窄带高清再去做相应的视频修复和视频加强。具体来说，视频修复包含强压缩失真、降噪等，视频加强蕴含细节加强、色调加强、对比度加强等。

ROI 的次要目标是在码率受限或码率统一的状况下，将码率尽可能调配到人眼更关注的区域，比方在电影电视剧中，观众会更多关注配角的脸。

基于 ROI 的解决和压缩，有以下两个难点：一是如何失去低成本的 ROI 算法，二是如何基于 ROI 进行码控决策，例如：保障 ROI 区域主观品质晋升的同时，非 ROI 区域的主观品质不会显著降落；同时做到时域间断、不闪动。

在低成本 ROI 计算方面，阿里云自研了自适应决策的人脸检测跟踪算法，这是一款低成本、高精度的算法。在极大局部工夫只须要做计算量极小的人脸跟踪，只有少部分工夫做人脸检测，从而在保障高精度的状况下，实现超低老本和疾速 ROI 获取。

从下图表格外面能够看到，阿里云自研算法相比开源人脸检测算法，精度和召回基本上没有损失，同时复杂度和计算耗时有显著数量级的降落。

在有了 ROI 算法之后，须要对场景、视频品质的自适应码率调配进行决策。针对此难题，次要思考与编码器联合，在主观和主观之间获得平衡，同时保障时域的统一。

JND 传统视频压缩办法次要基于信息实践，从预测构造的角度减小时域冗余、空间冗余、统计冗余，但这对视觉冗余开掘是远远不够的。

在 JND 算法里，次要采纳了两个算法，一个是空域 JND 算法，一个是时域 JND 算法，拿到这些 JND 算法后，咱们再基于 MOS 的自适应码控算法，对 QP 做自适应的调配，最终实现在通用场景及主观状况下，码率能够节俭 30% 以上。

讲到视频修复加强，提及最多的就是细节加强局部，成果的确会比拟显著。

通常的细节加强基于 UnSharp Mask 的框架。阿里云视频云自研的细节加强算法，有以下三个特点：第一是有更精密的图像纹理细节提取形式，能提取不同尺寸，不同特色的图像纹理构造，加强成果更优；第二，算法能够通过对图像内容纹理构造剖析，依据区域纹理复杂度实现部分区域自适应加强；第三个特点是算法能够和与编码联合，依据编码器的编码信息反馈来自适应调整加强策略。

通常采集的视频素材，因为采集的设施或者光线亮度的起因，导致素材色彩可能看起来会比拟黯淡。特地是在短视频场景，这类视频会失去视觉吸引力，因而须要色调加强。

色调加强存在哪些难点问题？具体如何做色调加强？

像 Ffmpeg 外面有 EQ filter，EQ filter 会用 UV 通道去做色调加强。而在咱们的自研算法里，实际上是在 RGB 色彩空间去做加强，即会依据以后色彩点的饱和度，去做一些部分的自适应。同时，也会依据以后画面整体的状况，做一个整体的自适应。

在肤色爱护这块，因为传统的色调加强完之后，人脸区域会泛红，主观视觉上不天然。为了解决这一问题，咱们采纳了肤色爱护的办法，对肤色区域做一个额定的爱护。

这是一个色调加强前跟加强后的成果比照。能够看到加强后的绿色的蔬菜、肉，整个的色彩看着会更丰满，对于美食类视频来讲更可能激发起观众的食欲。

在对比度加强中，应用了经典的 CLAHE 算法，其思路是对一个视频帧做分块，通常分成 8 ×8 个分块，在每一块统计直方图。而后统计直方图的时候，对直方图做一个 Clip，就是所谓的对比度受限的直方图平衡，这次要是克服适度放大噪声的问题。基于 CLAHE 的视频对比度加强其实有一个难点，就是时域闪动问题。这在学术界也是一个较难的问题，到目前为止，还没有失去十分彻底的解决。

降噪在 ffmpeg 外面有很多算法，比方像 BM3D、BM4D、NLM，这些算法的去噪成果好，然而复杂度十分高，会导致速度慢老本高，可能还须要配合噪声预计模块来一起应用。

另外还有一些绝对平衡的算法，速度比拟快，然而成果不强。如果想要晋升它的去噪强度，通常会引入一些伪影或细节失落的问题。

基于这些调研，咱们自研的降噪算法采纳基于多分辨率合成在下面做滤波框架。首先是对输出图像会做小波合成，失去高频跟低频信息。对于高频做软阈值解决。对于低频采纳双边滤波降噪。通过这种滤波或者软阈值之后，再从新合成回去，就能够达到去噪目标。算法的外围难点在于如何去做减速，使得老本和运算速度可能满足转码要求，尤其是实时转码场景，对速度要求是十分高的。

算法团队对于小波变换减速做了包含整形化很多的尝试，总是存在一些累积误差。所以咱们最初采纳了浮点型减速形式，用 avx2 浮点减速可能达到大略三倍的晋升。

另外是双边滤波这部分的减速，传统的双边滤波基于邻域像素的操作。这种基于邻域的操作其实十分慢的。因而，咱们采纳了 RBF 这个疾速算法，把二维的滤波分解成一维的，同时采纳递归的形式去从左到右，从右到左，从上到下，从下到上，这样的一维操作，就能够实现相似于原始双边滤波成果。通过采纳 RBF 这个疾速算法，咱们能够取得大略 13 倍的减速。此外咱们还做了这种 AVX2 汇编的优化，这块可能额定减速十倍左右。

上图是 SDR+ 的整体效果图，在通过 SDR+ 的解决之后，画面整体的对比度、亮度、清晰度会有很大的晋升，以上这些是针对视频加强做的一些工作。

首先是 CDEF 去振铃，CDEF 自身是源自于 AV 1 的一个技术，在 CDEF 解决之前，强边缘左近会有很多的毛刺和振铃。通过 CDEF 解决之后，画面中的噪声失去很大的剔除。

CDEF 算法的外围步骤，其实是一个平滑滤波的过程，只不过它的平滑滤波的权重、偏差都做了一些非凡的解决。特地是它的滤波权重，跟以后像素点所在的 8 ×8 像素区域的次要方向是有关系，也就是图中左下角这里展现的，它会去做一个最优方向的一个搜寻。搜寻完了之后，依据主方向来确定它的这个滤波器抽头的方向和权重。此外，CDEF 有两局部的权重，一个是主方向的 WP，另一个是辅助方向 WS。而后对于邻域点和以后点的灰度偏差做截断，这能够防止过平滑。

除了用 CDEF 基于传统的图像处理算法做去振铃之外，还做了基于深度学习的去压缩失真的算法。这个算法是基于多帧的计划，更利于帧间连续性，不易呈现帧间闪动。“窄带高清”算法分成两大块：一个是品质检测模块，一个是去压缩模块。品质检测模块能够辨认不同品质视频源的压缩水平，而后输入 QP MAP 作为压缩强度掂量指标。另一个是去压缩模块，输出多帧视频和对应帧的 QP MAP，利用 QP MAP 进行自适应去压缩。

极致修复生成次要是针对画质比拟差的场景，去除较强的压缩失真的同时，生成一些因压缩而失落的细节。在极致修复生成研发中，有以下几个要点：一是构建训练数据（在训练数据构建时，参照了 Real-ESRGAN 的二阶进化思路）；二是对比拟敏感的人脸区域，保障人脸生成稳定性；三是做模型压缩时，使得模型计算量低的同时保持良好的成果；四是模型部署。

在六月份 NBA 决赛直播时，百视 TV 心愿通过应用咱们的窄带高清 2.0 修复生成技术，来晋升他们赛事直播的品质。如两头这个截图所示，截图的上半局部是主播间接推过来的视频成果，下半局部是通过极致修复生成之后的成果。

能够看到修复之后，Youtube 这几个字母边缘会更清晰、洁净，不再毛躁。其余篮球场景相干的，比方球员身后的数字及球员的身材轮廓，也会变得特地清晰。另外也有些生成成果，比方地板上有生成一些纹理，使整体的赛事观感大大晋升。

除了自研的算法，阿里云也有一些高校合作项目，字幕修复就是其中一个合作项目的成绩。能够看图中右下角理论修复字幕例子。该字幕取自一个老片 MV，下面一行是原始 MV 里的字幕，能够看到“话”字的言字旁几条横笔画会有一些粘连，此外文字边缘还有很多的噪声。上面一行是通过字幕修复之后的成果，可能看到会变得很洁净、清晰。

将来，窄带高清技术也将继续降级，通过算法能力进一步晋升修复生成成果、降低码率和优化老本，通过买通前后端的解决，以及摸索落地更多沉迷式场景，如：针对 VR 畛域的窄带高清。与此同时，该项技术也将利用于更多的顶级赛事流动，在老本优化和谐之上，实现视效体验的全新降级。

「视频云技术」你最值得关注的音视频技术公众号，每周推送来自阿里云一线的实际技术文章，在这里与音视频畛域一流工程师交换切磋。公众号后盾回复【技术】可退出阿里云视频云产品技术交换群，和业内大咖一起探讨音视频技术，获取更多行业最新信息。

关于视频:从技术全景到场景实战透析窄带高清的演进突破

01 窄带高清的源

窄带高清全景图

02 视频内容分析

ROI

03 视频修复加强

细节加强

色调加强

对比度加强

降噪

减速

CDEF 去振铃

去压缩失真

极致修复生成

极致修复的场景实战