关于云计算:窄带高清画质增强之生成式细节修复

作者：兮墨

阿里云窄带高清实质上是一种转码品质优化技术，是一套以人眼的主观感触最优为基准的视频编码技术，钻研的是在带宽受限的状况下，如何谋求最佳的视觉感触，即人眼感触的主观品质最优。而画面质量晋升则是通过应用失当的画质加强技术以达到。

咱们先来看两个窄带高清画质加强技术晋升源视频画质的客户案例：百视 TV APP NBA 直播转码画质加强以及江苏挪动 FIFA2022 世界杯直播转码画质加强。

右侧为窄带高清画质加强输入

视频仅限于演示技术计划成果

右侧为窄带高清画质加强输入

视频仅限于演示技术计划成果

视频是信息出现和流传的次要载体。从晚期的 625 线模仿电视信号，到起初的 VCD、DVD、蓝光、超大尺寸电视等，用户对高品质画面无止境的谋求推动着视频技术的不断进步和产业的蓬勃发展。据预测，将来集体消费者网络流量的 80% 以上和行业利用流量的 70% 以上都将是视频数据。

当下，随着视频拍摄和视频播放显示设施的软 / 硬件配置和性能一直降级，消费者对于视频画质的要求越来越高：从 360p 到 720p 再到 1080p，当初正全面跃升至 4K，并且 8K 的脚步正在迫近。在视频娱乐场景中，视频画质是影响用户互动体验的关键因素，高清视频往往比低清视频蕴含更多的细节和信息，给用户的视频互动带来更好的体验，这也促成了用户在视频娱乐中对视频画质的要求越来越高。视频消费者一旦适应了高清视频所带来和以往不一样的感触和体验，例如：高清视频能够将光线、质感、人物皮肤、纹理等细节还原得更为实在，对于“渣”画质的容忍度就会越来越低。

作为翻新的排头兵，互联网视频网站正拿出各种应答伎俩满足消费者的需要，晋升画质俨然成为视频网站争取 IP 之外的新战场。当下，国内外支流的视频网站 /APP 曾经全面遍及 1080p，1080p 曾经成为一种标配；一些视频平台，例如爱优腾、B 站、YouTube，局部节目内容也提供了 4K 版本。

视频从采集到最终散发再到终端消费者进行播放观看，两头要经验简单的视频解决和传输链路。残缺的解决和传输链路通常包含以下几个环节：

l 采集 / 编码：内容提供方采集的视频首先会被编码为特定的格局；

l 编辑 / 剪辑 / 重编码：对原始素材进行多样化的编辑 / 剪辑操作，进行二次创作，而后重编码输入；有的业务场景可能会蕴含屡次剪辑解决；剪辑 / 编码实现的视频会被上传至服务端；

l 云服务端转码：视频在上传到云服务器后，为适应不同的网络环境和播放终端通常会在云端进行转码（本文所探讨的窄带高清转码即产生在该环节，以更高的压缩比出现更高质量的视频）；

l 云公布：CDN 内容散发网络

l 播放端：视频经由内容散发网络（CDN）减速散发，通过解码最终在内容生产方的终端设备上实现播放。

l 多平台播放：手机，Pad，OTT，IPTV，Web

图 1 视频解决和传输链路

从视频解决角度来看，窄带高清云转码是视频内容触达终端消费者的最初一个解决环节；从客观现实上来说，是视频内容生产生产全链路的“最初一公里”。

从传输角度来看，在视频生产和生产全链路，各环节之间数据的流转有多种形式：SDI 有线线缆形式、无线蜂窝挪动通信、互联网以及卫星通信等。不同数据传输计划在传输环境稳定性和带宽存在微小的差别，因而，为了能在带宽受限的链路上进行稳固的视频传输，必然要对视频信号进行深度编码压缩，而编码压缩势必会带来不同水平的画质伤害。

举个例子：常见的视频流规格：1080p, 60 fps, YUV 4:2:0, 8-bit，raw data 码率为 192010801.5860 = 1.49Gbps

上述提到的传输方式中，只有 3G-SDI 有线线缆可撑持该码流的实时传输。而视频内容触达终端消费者的形式个别是经由互联网进行散发，码率须要管制在 10Mbps 以下，因而象征要将原始视频压缩上百倍。

综上所述，从整个视频解决和传输链路来看，视频内容从采集到终端播放，要经验多个视频编辑、解决、重编码的操作。而每一次解决 / 编码操作或多或少都会对视频的画质产生影响，通常会伤害画质。因而，当下即使是应用最新的视频采集设施（能够输入高画质的原始视频信号），终端消费者侧也不肯定保障能体验到高画质，起因就在于两头解决环节的画质损耗。

窄带高清云转码作为整个视频解决链路的最初一个解决环节，其输入码流画质成果即为最终散发至终端消费者的画质成果。因而，如果在该环节应用失当的画质加强技术，能够肯定水平上补救前序视频解决环节所产生的画质伤害，起到优化画质的作用。

视频画质加强技术大抵能够分为三大类：

l 色调 / 亮度 / 对比度维度加强：色调加强（色域，位深，HDR 高动静范畴）、去雾、低光照 / 暗光加强等；

l 时域维度帧率加强：视频帧率变换 / 智能插帧；

l 空域维度细节还原 / 加强：去压缩失真、分辨率倍增、降噪 / 去划痕 / 去亮斑、去闪动、去模糊、去抖等。

视频加强技术在产品落地层面，目前比拟热门的抉择是做老旧视频素材的高清化，例如年代比拟长远的电影、电视剧、动画片和 MV/ 演唱会视频等。老旧影视素材普遍存在：划痕、噪点 / 霉斑、闪动、细节含糊、静止拖尾、色调黯淡或者只有黑白等问题，能够通过去噪、去脏点 / 划痕 / 霉斑、去模糊、去闪动、分辨率 / 帧率倍增以及色调加强（黑白上色）等解决，这样能够全面晋升素材的整体观感。

然而，因为每个老旧素材所面临的画质问题差别很大，且目前的技术水平对于有的画质问题还难以给出令人满意的成果，因而老旧素材高清化处理过程必须引入人工干预。

人工干预体现在两个方面：一是对老旧素材画质问题进行诊断，并配置失当的解决模型和解决流程；二则是对模型处理结果进行人工审查，并做适当的精修和微调。

窄带高清云转码作为一种全自动，无人工干预的视频转码作业，所采纳的视频画质加强优化技术也须要做到全自动，无需人工参加。咱们认为在抉择产品化方向时，所集成的视频加强技术应该满足以下几个条件：

l 视频加强技术能够实现全自动，无需人工干预： 老旧素材高清化目前还须要太多的人工干预，不合乎该准则；

l 相干技术具备宽泛的适用范围： 低光照 / 暗光加强和视频去抖在局部场景也有需要，但在视频转码场景，有这类画质问题的视频占比非常少；

l 继续的刚需： 该技术可带来消费者可感知的画质晋升，且其解决的问题在将来 5-10 年都会继续存在，因而能够造成继续的刚需。

根据上述准则，咱们最终抉择在窄带高清转码中集成的画质加强技术为：空间维度细节修复，解决视频生产链路产生的画质损失，即屡次编码压缩导致的画质损失。

从整个视频解决和传输链路来看，咱们再具体分析一下产生画质损失的环节有哪些：

1. 信号源自身的画质问题

l 传输链路导致的低码率： 在视频生产流程中，传输链路的带宽通常有肯定的限度，为了优先保障晦涩，不得不采纳低码率。典型场景有：跨国境直播流；大型赛事流动现场信号远距离传输，无专线保障；以及无人机航拍实时信号。典型的码率设置例如 1080p 50fps 4-6M，直播场景通常是硬件编码，输入的码流有显著的编码压缩损失；

l 内容版权 / 商业模式导致的低码率： 因为视频版权或者商业模式问题，视频版权方给到散发渠道只有低码率信号源；

l 原始视频素材经验过屡次编码压缩，曾经有显著的画质损失问题。

图 2 低码率信号源画质问题：有显著的编码块效应

2. 编辑 / 剪辑及二次创作引入的画质问题

l 剪辑软件编码压缩引入的画质问题。

在 UGC 短视频畛域，大家通常习惯应用手机剪辑 APP 来进行视频剪辑，剪辑 APP 会调用手机硬件编码来做实现渲染视频的编码输入；但手机的视频编码能力比拟受限，且不同型号手机的编码压缩性能差别很大，因而很容易呈现编码压缩后画质不好的状况，即使输入码率高达 20M@1080p，如下图；

l 推流工具重编码压缩引入的画质问题。

在一些业务场景，例如网红博主陪你看球，演播室或者讲解主播会将原始信号流通过 OBS 拉流到本地，叠加讲解，再推流上云；OBS 的重编码会再次伤害原始视频的画质。

图 3 UGC 短视频，剪辑软件输入视频：

码率 20M，分辨率 1920×1080，画面存在显著编码块效应和含糊

图 4 主播讲解，OBS 推流：

码率 6M，分辨率 1920×1080，画面存在大量编码压缩导致的边缘锯齿 / 毛刺，以及含糊

从需要持续时间来看，因为传输带宽的限度，在整个视频生成流程中，视频编码压缩是一个无奈防止的解决操作，而有压缩就不可避免引入画质伤害，因而，面向编码压缩损失的画质晋升会是一种持续性的需要。

从学术的角度来看，解决生产链路引入的画质损失，次要钻研的技术包含：去压缩失真以及超分辨率重建。去压缩失真次要解决编码压缩导致的块效应，例如边缘毛刺和细节失落 / 含糊问题；超分辨率重建能够打消解决链路中可能引入的空间分辨率降采样，并晋升画面整体锐度和清晰度。

学术界对图像超分辨率重建技术的钻研曾经继续了几十年。晚期的办法大多基于空域 / 时域重构技术，起初倒退到基于样例的学习办法，比拟有代表性的计划有：（1）基于图像自相似性的办法；（2）基于畛域嵌入的办法；（3）基于字典学习 / 稠密示意的办法；（4）基于随机森林等。但直到基于卷积神经网络（CNN）的超分辨率技术衰亡，才让该项技术在解决成果和性能方面达到可商用的程度，从而在工业界失去宽泛关注和利用。

第一个将基于 CNN 的图像 / 视频超分辨率技术进行产品化落地尝试的当属一家叫 Magic Pony 的守业公司。该公司在 CVPR 2016 上做了一个过后十分炫酷的 demo – Real-Time Image and Video Super-Resolution on Mobile, Desktop and in the Browser[1, 3]。第一次将基于 CNN 的视频超分辨率技术移植到了挪动平台（三星手机和 iPad），能够对游戏直播画面进行实时的超分辨率加强解决，显著晋升源流的画质。该项技术很快引起了 Twitter 的关注，并在很短的工夫内就实现了对该公司的收买 [2]。

此后，随着第一届 NTIRE 超分辨率较量 – NTIRE 2017 Challenge on Single Image Super-Resolution [4]的举办，越来越多的公司开始关注基于 CNN 的图像超分辨率技术，从那之后，这方面的落地利用也如雨后春笋般地涌现。

l 惯例 CNN 去压缩失真解决：这个人脸有点假

尽管基于 CNN 的图像超分辨率技术可获得远超过往技术的解决成果，但其产品化过程还是存在不少问题。一个典型的问题是：基于 MSE/SSIM 损失函数训练失去 CNN 超分辨率模型（也即惯例 CNN 超分辨率模型），重建生成的图像往往会短少高频细节信息，从而显得过平滑，主观感触不佳。

上面三个例子为一个典型的惯例 CNN 超分辨率模型达到的解决成果：

惯例 CNN 超分辨率模型对编码压缩造成的块效应、边缘锯齿、毛刺等 artifacts 有比拟好的平滑作用，从而使得整个画面看起来更加洁净，但画面短少细节和质感，次要体现在人脸区域，有比拟显著磨皮效应。因而，在对画面细节有要求的业务场景，例如 PGC 内容生产，用户通常会埋怨：人脸磨皮太显著，有点假。

图 5 惯例 CNN 模型解决成果示范：

解决之后编码 artifacts 被无效去除，画面比拟洁净平滑，

但短少细节和质感，例如人像区域的头发 / 眉毛 / 胡子 / 皮肤颗粒感 / 嘴唇纹理等细节；

高空草地纹理细节以及晚会节目视频中演员服装、道具细节失落

l 基于 GAN 的解决计划

为了解决惯例 CNN 超分辨率模型不足细节、过平滑的问题，学术界在 2017 年提出了基于生成反抗网络（GAN）的超分辨率计划：超分辨率生成反抗网络（SRGAN）[5]。SRGAN 在模型训练过程中，额定应用判断器对模型输入后果的纹理真实性进行甄别，从而使得模型偏向输入具备肯定细节纹理的后果。

如下图所示，基于 MSE 的模型偏向输入平滑的后果，而基于 GAN 的模型偏向输入有肯定纹理细节的后果。

图 6 基于 GAN 的 SR 计划

图起源：论文 Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network

基于 GAN 的超分辨率模型具备“无中生有”生成细节的能力，因而能够补充原始画面缺失的纹理细节，这对解决惯例 CNN 模型过平滑问题有很大的帮忙。在 SRGAN 模型之后，学术界有不少工作对这一技术方向进行一直的欠缺[6, 7]。

然而，想要在理论业务场景中用好 GAN 生成技术，尤其是要在窄带高清全自动转码作业中利用该能力，技术实现层面还是有不少难点。因为 GAN 的纹理细节是通过大量数据训练之后“脑补”进去的，那么“脑补”生成进去的细节纹理是否天然、与原始画面有没有违和感、相邻帧的生成后果是否具备一致性等，对该项技术是否在理论视频业务中胜利利用至关重要。

具体来讲，要在窄带高清全自动转码作业中应用 GAN 生成能力，须要解决以下几个问题能力满足商用要求：

l 模型“脑补”生成的纹理天然，与原始画面没有违和感；

l 视频相邻帧的生成成果一致性高，间断播放无时域闪动景象；

l 可利用于自动化解决流：模型对片源品质有良好的自适应能力，对不同画质损失水平不同的片源均有收益；

l 模型可实用于不同视频类型场景，例如影视剧，综艺，赛事，动画片等；

l 模型解决流程简略，解决耗时可预测、可管制（直播场景对解决效率有比拟高的要求）。

阿里云视频云音视频算法团队通过对 GAN 生成技术继续的钻研，积攒了多项 GAN 模型优化技术，解决了上述 GAN 细节生成能力商用落地的难点问题，打造了一个可利用于全自动转码作业的 GAN 细节生成计划。该计划的外围劣势是：时域稳固的细节生成能力。

图 7 阿里云窄带高清 GAN 细节生成技术

具体来讲，在窄带高清 GAN 细节生成模型的训练过程中，咱们应用了以下优化技术：

1. 建设类型丰盛、清晰度高、细节丰盛的高画质视频库作为模型训练的高清样本，训练样本蕴含多样的纹理特色对 GAN 生成纹理的真实感有很大的帮忙；

2. 通过精细化建模一直优化训练数据的制备过程：基于对业务场景所面临的画质问题的深刻洞察，贴合业务场景一直优化训练样本建模办法，一直摸索以达到精细化建模；

3. 摸索积攒无效的模型训练策略：

l 损失函数： 训练损失函数配置调优，例如 perceptual loss 应用不同 layer 的 feature，会影响生成纹理的颗粒度，不同 loss 的权重配比，也会影响纹理生成的成果；

l 训练形式： 咱们在模型训练过程应用了一种叫 NoGAN 的训练策略 [8]。在图像 / 视频上色 GAN 模型训练中，NoGAN 训练策略被证实是一种十分无效的训练技巧：一方面能够晋升模型的解决成果，另外一方面对模型生成成果的稳定性也有帮忙。

4. 模型对片源品质的自适应能力决定了其是否可利用于自动化解决作业。为了进步模型对片源品质的自适应能力，咱们在训练输出样本品质的多样性和训练流程方面做了很多工作。最终咱们训练失去的 GAN 模型具备良好的片源品质自适应能力：对中低质量视频源具备显著的细节生成加强能力、对高质量片源有适中的加强成果；

5. 打造多场景解决能力：依据学术界的教训，解决指标先验信息越明确，GAN 的生成能力越强。例如将 GAN 技术用于人脸或者文字修复，因为其解决对象繁多（高维空间中的一个低维流形），能够失去十分惊艳的修复成果；

因而，为了晋升 GAN 对不同场景的解决成果，咱们采纳了一种「1+N」的解决模式：「1」为打造一个实用于通用场景的 GAN 生成模型，具备比拟温和的生成能力；「N」为多个垂直细分场景，针对垂直细分场景，在通用场景模型根底之上，对该场景特有的纹理细节进行比拟激进的生成，例如：对于足球赛事场景，模型对赛场草地纹理有更强的生成成果；对于动画片场景，模型对线条有更强的生成能力；对于综艺节目，舞台表演场景，模型对人像特写细节有更强的生成能力。特地留神：如下所述，对于特定指标的生成成果晋升，咱们并没有采纳特定指标独自解决的计划；

6. 计算复杂度可控可预测的解决模式：直播场景对解决模型的运行效率有很高的要求。为了适配直播画质加强的需要，当下，咱们采纳了单个模型解决模式，即：对全幅图像，对立应用单个模型进行解决。 即使要对某些特定指标的生成成果进行针对性晋升，例如人像区域及足球场地草地纹理，咱们并没有采纳将指标抠出来，独自解决的计划。因而，咱们的模型推理工夫是可预测的，与图像内容无关。通过模型蒸馏、轻量化，基于阿里云神龙 HRT GPU 推理框架，咱们的 GAN 细节生成模型在单卡 NVIDIA Tesla V100 上，解决效率可达 60fps@1920×1080。

为了保障 GAN 模型生成成果的帧间一致性，以防止帧间不间断带来视觉上的闪动，咱们通过与高校单干的形式，提出一种即插即用的帧间一致性加强模型 – Temporal Consistency Refinement Network (TCRNet)。TCRNet 的工作流程次要蕴含以下三个步骤：

l 对单帧 GAN 处理结果进行后处理，达到加强 GAN 处理结果的帧间一致性的同时，加强局部细节，改善视觉效果；

l 应用偏移迭代修改模块 (Iterative Residual Refinement of Offset Module，IRRO) 联合可变形卷积，进步帧间静止弥补精度；

l 应用 ConvLSTM 模块，使模型可能交融更长距离的时序信息。并通过可变形卷积对传递的时序信息进行空间静止弥补，避免因为偏移造成的信息交融误差。

图 8 TCRNet 算法流程，起源：论文 Deep Plug-and-Play Video Super-Resolution

图 9 偏移迭代修改模块 (IRRO) 算法流程

起源：论文 Deep Plug-and-Play Video Super-Resolution

回到后面提及的几个惯例 CNN 解决成果例子，咱们再来看看应用窄带高清 GAN 细节生成解决会有怎么不一样的后果。对于这些例子，咱们应用通用场景模型进行解决。

图例：从左至右别离为：窄带高清 GAN 解决、输出原始帧、惯例 CNN 解决成果

图 10 人脸皮肤上有了颗粒感，有一种皮肤质感；头发，眉毛有了发丝的感觉；嘴唇纹理更丰盛

图 11 头发，胡子的细节更丰盛，人脸不会有磨皮感

图 12 高空 / 草地纹理更丰盛，细节更清晰

图例：从上至下别离为：窄带高清 GAN 解决、输出原始帧、惯例 CNN 解决成果

图 13 左侧演员裙子纹理更丰盛；右侧演员道具纹理更丰盛，细节更清晰

图例仅限于演示技术计划成果，从左至右别离为：窄带高清 GAN 解决、输出原始帧

图 14 头发，胡子区域有显著的细节生成，纹理更丰盛

在后面咱们提到，针对垂直细分场景，模型会对该场景特有的指标进行较为激进的纹理生成。例如对于足球赛事场景，模型对场地的草地纹理有更强的生成能力。下图是两个示例：

图例：从左至右别离为：窄带高清 GAN 解决、输出原始帧

图 15 足球赛事场景，草地纹理生成成果

此外，对于动画片场景，咱们也训练了一个针对性的 GAN 模型，聚焦在线条生成能力。上面为三个动画片的解决成果。

图例：从左至右别离为：窄带高清 GAN 解决、输出原始帧

图 16 动画片解决成果

目前，窄带高清 GAN 细节生成能力已在百视 TV NBA 直播转码中全面启用。当您用百视 TV APP 观看 NBA 较量，抉择“蓝光 265”档位，就能够体验基于窄带高清 GAN 细节生成能力转码输入的画质。同时，百视 TV 在一些综艺节目和大型流动的直播中也应用了该性能。

此外，在 FIFA2022 世界杯转播中，江苏挪动应用窄带高清 GAN 细节生成技术晋升咪咕视频原始机顶盒散发流的画质。在为期一个月的赛事转播期间，窄带高清为江苏挪动全天 24 小时不间断直播提供画质加强能力。

除了百视 TV 和江苏挪动，目前还有多个客户在试用窄带高清 GAN 细节生成能力，POC 测试的成果失去了客户的高度认可。

客户场景画质加强成果示范：

左侧百视 TV APP 直播推流信号源；右侧：窄带高清画质加强输入

左侧江苏挪动直播推流信号源（咪咕 8M）；右侧：窄带高清画质加强输入

高分辨率、纹理丰盛、细节清晰的视频能提供更清晰的画面和更高阶的感官体验，对于晋升视频品质和用户视觉感触有很大的帮忙。窄带高清 GAN 细节生成修复技术将继续在该畛域一直摸索，一直精进，打造极致的细节复原和加强成果，为视频消费者提供优质的视频观看体验。

将来，窄带高清 GAN 细节生成能力将继续进行算法性能优化，晋升细节生成和修复成果，同时一直升高解决老本。

更好！晋升细节生成和修复成果；除了当初采纳的 GAN 计划，基于扩散模型的细节生成技术也将是咱们后续钻研的重点方向；

更广！打造更多垂直细分场景，采纳激进的生成策略晋升相应场景的细节复原成果；

更普惠！通过模型轻量化，以及优化部署计划，继续升高解决老本，以普惠的价格服务更多的客户。

【本文所波及的视频、图片为理论案例，仅用于技术分享及成果展现】

[1] https://cvpr2016.thecvf.com/program/demos

[2] https://www.gov.uk/government/news/magic-pony-technology-twitter-buys-start-up-for-150-million

[3] Wenzhe Shi et al., Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network, CVPR 2016

[4] NTIRE 2017 Challenge on Single Image Super-Resolution: Dataset and Study, CVPRW 2017

[5] Christian Ledig et al., Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network, CVPR 2017

[6] Kai Zhang et al., Designing a Practical Degradation Model for Deep Blind Image Super-Resolution, ICCV 2021

[7] Xintao Wang et al., Real-ESRGAN: Training Real-World Blind Super-Resolution with Pure Synthetic Data, ICCVW 2021

[8] https://www.fast.ai/posts/2019-05-03-decrappify.html#nogan-training

[9] Hannan Lu et al., Deep Plug-and-Play Video Super-Resolution, ECCVW 2020

特别感谢以下同学对本文所波及的算法做出的奉献。@刘佳慧(佳芙) @吕峥瑶(相泉) @李岁缠(岁曦) @王伟(静瑶) @邵纬航(生辉) @周明才(明烁)

关于云计算:窄带高清画质增强之生成式细节修复

01 视频高清化已成大趋势

02 窄带高清云转码助力“最初一公里”的画质优化

03 窄带高清画质加强应该优先解决什么问题？

窄带高清画质加强技术落地抉择准则

窄带高清画质加强：解决生产链路引入的画质损失

04 面向编码压缩损失的画质加强技术

05 窄带高清 GAN 细节生成技术：时域稳固的细节生成能力

GAN 生成时域稳定性保障技术

窄带高清 GAN 细节生成：这个人脸成果还假吗？

窄带高清 GAN 细节生成技术商用

附：参考文献

致谢