关于rtc:揭开视频超分黑科技的神秘面纱

在看电影时，有一幕大家应该都十分相熟，警察从证据图片中选取一块区域放大，再放大，直到一个很小的指标变得清晰可见，从而发现重要的线索。事实中是不是真的有这样的技术，能够把含糊的小图变得清晰？答案是，肯定水平上能够，这项黑科技就是超分辨率技术，从低分辨率图像复原高分辨率图像，进步图像的品质，从而取得更加清晰的图片。超分辨率技术具备宽泛的理论利用，如医学图像重建、人脸图像重建、近程传感、全景视频、无人机监控、超高清电视等。同样情理，实时视频也能够进行超分辨率解决，将含糊的小分辨率视频变成高清超高清视频，本篇干货分享就来揭开这项黑科技的神秘面纱。

咱们看到的图片或者视频，都是通过显示设施显示一个个像素来进行表白的。像素是在特定的工夫点上能表白一个特定色彩的点，相似一片片马赛克。一幅图片就是由多个像素进行表白的，如图 1 所示。一幅图片有多少行和多少列像素，通常就是咱们说的图片和视频的分辨率，它也是人眼可能分辨图像或者视频中的点或线的能力。

图 1 图片中的像素

数字相机在将真实世界转换为图片时，对实在的光信号进行了离散化，每个像素是一个采样，像素与像素之间是有距离的。当图像分辨率较低时，采样率就比拟低，或者能够了解为像素与像素之间的距离是较大的；分辨率进步，像素与像素之间的距离就变小，最终在显示图像时，就会对场景有更加精密的出现。因而咱们心愿图像的分辨率越高越好，能够失去更加清晰的图像。然而，因为采集设施的能力，或者编码压缩、传输等方面的限度，图像的分辨率有时会比拟低，为了进步这些图像的品质，能够通过晋升分辨率来失去更高质量的图像。最间接奢侈的想法就是用相邻的像素来填补空白，即近邻取样插值。然而这样的算法会呈现有阶梯状锯齿，显著不能很好地进步图像的品质。双线性插值、双三次插值、Lanczos 插值等算法能够进步比近邻取样插值更好的成果。这一类传统的算法，往往被归为图像缩放技术。个别缩放的比例不会太高。

图 2 近邻取样插值

随着深度学习技术的倒退，将低分辨率图像进行解决，失去一张高分辨率图像，同时复原出天然、清晰的纹理，就是咱们常听到的超分辨率技术，往往针对较高倍数的缩放，如 4 倍 8 倍缩放等。经典的图像超分算法 SRCNN，首次将卷积神经网络应用于图像超分辨率技术，相较于传统的算法，SRCNN 在图像的重建品质上获得了极大的晋升。与传统办法相似，它实际上也是利用低分辨率图像对空缺信息进行填补，从而进步分辨率和品质。在学习阶段，有同一幅图的高分辨率和低分辨率两个版本，输出低分辨率图，通过 CNN 网络后，输入高分辨率图像，同时与原有的高分辨率图进行比照，更新迭代下一次的学习，最初失去的 CNN 网络，就能够用来复原低分辨率图像。如图 3 所示，首先将低分辨率图输出到网络，通过特征提取、非线性映射、重建等步骤，输出高分辨率图像。SRCNN 之所以比传统网络更加优良，是因为它即通过对低分辨率图像的特色进行学习和提取，针对不同的纹理特色，而后依据特色的不同，从而能够更加正当地进行高频信息的生成。

图 3 SRCNN 模型中的卷积构造

视频与图像相似，分辨率的晋升对于晋升视频品质也至关重要。与图像超分最大的不同，就是视频能够利用多个间断的图像 / 帧之间的相干信息，晋升指标图像 / 帧的分辨率。尽管能够将视频拆分成多幅图像，而后用图像超分算法进行解决，然而会造成帧与帧之间呈现不连贯的失真。近年来呈现了一大批优良的利用于视频的超分算法，以图像超分算法为根底，通过减少相应的模块来开掘帧与帧之间的特色，从而进步视频超分算法的性能。

视频超分，假如低分辨率视频是从高分辨率的视频通过一系列的进化操作而失去，超分算法就是将该进化操作进行求逆，从而能够将低分辨率视频复原成高分辨率视频。该进化操作能够表白为：

式中符号别离示意低分辨率视频的第 i 帧，高分辨率视频的第 i 帧，以 i 帧为核心的 2N+ 1 个高分辨率视频帧，及进化操作。通常进化操作为下采样，含糊，以及静止形变等。现实情况中，进化可能更加简单，如色彩空间转换、压缩等。超分算法的指标即求解该进化过程的逆操作：

基于深度学习的视频超分算法，个别会采纳卷积神经网络（CNN）、生成反抗网络（GAN）或者循环神经网络（RNN）。架构基本上都是将低分辨率作为输出，而后进行帧间对齐，特征提取，特色交融，最初重建生成高分辨率视频，如图 4 所示。能够看出，与图像超分最大的不同之处在于，视频超分应用了帧间的信息。如何高效地应用这些信息，也是不同的算法的区别之处。

图 4 视频超分算法的根本框架

视频超分能够利用相邻帧间的信息，从而极大进步超分算法的性能。依据应用相邻帧间的信息的办法，对超分算法进行简略的分类：相邻帧进行对齐和非对齐两类。其中对齐算法又能够分成应用静止预计和静止弥补（MEMC）以及应用可变卷积两类。非对齐算法可分成二维卷积、三维卷积、RCNN、Non-Local。具体分类可图 5，

图 5 视频超分算法分类

基于静止预计和静止弥补算法

静止预计和弥补算法在视频超分中有着十分重要的作用，很多算法都以此为根底。静止预计是为了提取出帧间的静止信息，而后依据静止信息将不同的帧进行对齐。静止预计大多采纳光流法，即通过计算帧间的时域相关性和变动，失去静止信息，如图 6 所示。静止弥补即利用静止信息来对相邻的帧进行解决，从而与要解决的帧进行对齐。罕用的办法有线性插值和空域变换网络（STN）。

图 6 光流算法

VSRnet

VSRnet 是图像超分算法 SRCNN 在视频上的扩大，最大的改良就是减少了静止预计和静止弥补模块，输出图像由一幅变成多帧。静止信息的提取采纳了 Druleas 算法。

VESPCN

VESPCN 即 Video efficient sub-pixel convolutional network，引入了一个空域静止弥补变换模块（MCT），静止弥补后的帧作为卷积网络的输出，再通过特征提取和交融，最初通过一个亚像素卷积层做上采样失去高分辨率视频。MCT 模块采纳 CNN 由粗到精来提取静止信息、进行静止弥补。粗估网络以 2 个间断帧作为输出，通过 5 层卷积和 1 层亚像素卷积，失去粗略的光流静止信息，而后进行静止弥补。粗估网络的输出为粗估网络失去的光流信息和静止弥补帧，通过卷积网络失去更精密的静止信息和静止弥补帧。

RBPN

受后向投影算法的启发，RBPN 算法设计了一个投影模块。投影模块位于特征提取模块和重建模块之间。特征提取分为两个局部，一是对指标帧的低分辨率进行特征提取，二是对指标帧、相邻帧、及两帧的光流图的组合进行特征提取。投影模块由编码器和解码器组成。编码器由单图超分模块（解决指标图失去的特色图）、多图超分模块（解决指标帧、相邻帧、及两帧的光流图的组合失去的特色图）和残差块组成（解决前述两个模块，失去残差），将残差图与单图超分的后果叠加，送入解码器，解码器由残差块和下采样卷积组成。解码器的输入进入下一个投影模块，将所有投影模块的解码器的输入送入重建模块，失去超分帧。投影模块能够重复使用，直到遍历所有的帧。

可变卷积

上述这一类的超分算法，其共同点是都使用静止预计和静止弥补技术来将相邻的图像与指标图像进行对齐，然而都无奈保障静止信息的准确性，特地是当有光线变动或者较大的静止的时候。针对这点，可变形卷积被用来代替静止预计和弥补，来对齐图像。下述算法将对这种办法进行简要介绍。

可变卷积于 2017 年提出，与传统的卷积层不同的点是，传统卷积层，每一层都的核都是固定大小；可变卷积在核中退出了偏移量，如此以来，输出特色通过卷积操作，便能够更好地对几何模型进行变换。采纳可变卷积的视频超分算法次要有 EDVR，DNLN，TDAN，D3Dnet，VESR-Net。本文选取 EDVR 和 VERSR-Net 进行简要介绍。

EDVR

该算法篡夺了 NTIRE19 Challenge 的冠军。该算法有两个要害的模块：a、金字塔、级联和可变形对齐模块（PCD），用来解决简单静止和大静止；b、时空留神交融模块（TSA），用来交融多个对齐的特色图。最初是重建模块。此外，输出含糊图像时，能够减少预处理模块来去模糊。该框架也能够用来进行其它类型的视频解决。

VERSR-Net

该算法夺得优酷视频加强和超分算法挑战赛的冠军。它由特色编码器，特色交融器和重建模块组成。特色编码器由一个卷积层和多个 CARB 组成。特色交融模式借鉴了 EDVR 算法中的 PCD 模块，用来进行特色帧对齐。而后将特色图合成，造成空域，时域和不同色彩通道的特色，而后将这些特色进行交融。重建模块先通过 CARB 模块，而后进行特色解码，最初将特色与双三次插值的失去的高分辨图进行叠加，失去最终后果。

非对齐超分算法

除了前述的对齐办法之外，还有多种非对齐算法，即重建时不须要对帧进行对齐操作。能够细分为二维卷积法（FFCVSR）、三维卷积法（动静上采样滤波（DUF）、循环卷积法（双向循环卷积网络（BRCN）、非部分网络法。除了二维卷积法之外，其余办法都应用了时空域联结信息。这类办法依附神经网络学习失去特色和静止信息，因此不须要帧对齐。在此不做深入分析。

依据各种算法提供的试验数据，EDVR，RBPN 和 FFCVSR 是三个比拟优良的算法，特地是 EDVR 和 RBPN 都曾经被屡次验证过，比晚期的超分算法更高效。EDVR 是 NTIRE2019 挑战赛的冠军，该挑战赛指标是解决大静止场景和各种实在的视频场景，因此 EDVR 也是近来超分畛域比拟风行的算法。近期的超分算法比更晚期的算法高效，可能得益于硬件计算能力的晋升，使更深和更简单的网络变得更容易。这几个优良的算法，也都有一个显著的特点，就是它们都有相应的模块来解决高频重量和工夫相干信息，如 EDVC 外面的跨层 PCD 对齐，RBPN 里的后向投影和特色上下文。

尽管视频超分的性能曾经有了显著的晋升，但深度神经网络的引入，使得训练和预测的计算复杂度、存储开销都十分高。随着挪动设施的倒退，高效轻量级网络的需要变得更为迫切。特地是在实时通信畛域，对视频超分提出了更高的要求，因为实时通信还有更多模块应用计算资源，因而实时通信中的超分，岂但须要极为简洁的设计，10 毫秒级的解决算法能力真正落地；另外对帧的时延也有较高要求，往往指标帧之后的帧是不能作为输出，以缩小时延，这对网络结构的设计也有更高的要求。

随着人工智能和设施运算能力的继续提高，视频品质复原 (Video Restoraion) 在 RTC 零碎中的位置必将水涨船高，而视频超分是视频品质复原的最外围组件。在前文提到的技术根底之上，拍乐云也自研了可适配于支流挪动设施的超分算法，并将继续投入开发，为用户提供更高品质的实时视频体验。

参考文献

[1] https://arxiv.org/abs/2003.02115 J. Chen, et al. VESR-Net: TheWinning Solution to Youku Video Enhancement and Super-Resolution Challenge

[2] https://arxiv.org/abs/1905.02716 X. Wang, et al. EDVR: Video Restoration with Enhanced Deformable Convolutional Networks

[3] https://arxiv.org/abs/2003.13170 M. Haris, et al. Space-Time-Aware Multi-Resolution Video Enhancement

[4] https://arxiv.org/abs/2007.12928 H. Liu, et al. Video Super Resolution Based on Deep Learning: A Comprehensive Survey[5] Dong C, et al. Image Super-Resolution Using Deep Convolutional Networks. TPAMI 2016.

关于rtc:揭开视频超分黑科技的神秘面纱

01 什么是超分辨率

02 视频超分辨率算法的分类

03 各算法性能比照