关于RTC:AI驱动的超分辨技术落地实践

近年来，随着深度学习技术的疾速倒退，基于 AI 的超分辨技术在图像复原和图像增强畛域呈现出广大的利用前景，受到了学术界和工业界的关注和器重。然而，在 RTC 视频畛域中，很多 AI 算法并不能满足理论场景下的利用需要。本文将着眼于 AI 技术从钻研到部署的落地问题，分享超分辨技术在 RTC 畛域落地利用所面临的时机与挑战。

超分辨这一概念最早是在 20 世纪 60 年代由 Harris 和 Goodman 提出的，是指从低分辨率图像，通过某种算法或模型生成高分辨图像的技术，并且尽可能地复原出更多细节信息，也称为频谱外推法。然而在钻研初期，频谱外推法只是用于一些假如条件下的仿真，并没有失去宽泛的认可；直到单张图像的超分辨办法提出后，超分辨技术才开始失去宽泛的钻研和利用。目前，它曾经成为图像增强乃至计算机视觉畛域的重要钻研方向。

单张图像的超分辨办法依据原理不同，能够分为基于插值、基于重构和基于学习的办法。后面两种办法别离因为算法原理简略以及利用场景受限，在理论场景中的超分辨成果并不现实；基于学习的办法，是实际效果最好的超分辨办法，其外围包含两个局部：算法模型的建设，以及训练集的选取。依据算法模型和训练集，基于学习的办法又能够分为传统学习办法和深度学习办法。一般来说，传统学习办法的算法模型比较简单，训练集也比拟小。深度学习办法个别是指采纳大量数据训练的卷积神经网络办法，也是目前学术界钻研的热点。因而接下来我将重点介绍基于深度学习的超分辨办法的倒退过程。

SRCNN 是深度学习办法在超分辨问题的首次尝试，是一个比较简单的卷积网络，由 3 个卷积层形成，每个卷积层负责不同的职能。第一个卷积层的作用次要是负责提取高频特色，第二个卷积层则负责实现从低清特色到高清特色的非线性映射，最初一个卷积层的作用是重建出高分辨率的图像。SRCNN 的网络结构比较简单，超分辨成果也有待改善，不过它确立了深度学习办法在解决超分辨这类问题时的根本思维。起初的深度学习办法，根本都遵循这一思维去进行超分辨的重建。

起初的 ESPCN、FSRCNN 等网络基于 SRCNN 进行了一些改良，网络层数依然比拟浅，卷积层数不会超过 10，超分辨的成果也不是特地现实。因为在过后，深度卷积网络的训练是存在问题的。个别对于卷积神经网络来说，当网络层数减少的时候，性能也会减少，但在理论利用中，人们发现当网络层数减少到了肯定水平，因为反向流传原理，就会呈现梯度隐没的问题，导致网络收敛性变差，模型性能升高。这个问题直到 ResNet 提出残差网络结构之后，才失去比拟好的解决。

VDSR 是残差网络以及残差学习思维在超分辨问题上的首次利用，将超分辨网络的层数首次减少到了 20 层，长处是利用残差学习的形式，间接学习残差特色，网络收敛会比拟快，超分辨成果也更好。起初一些卷积神经网络提出了更简单的构造，比方 SRGAN 提出应用生成式反抗网络来生成高分辨的图像，SRGAN 由 2 局部组成，一个是生成网络，另一个是判断网络。生成网络的作用是依据一张低分辨率的图像来生成一张高分辨的图像，而判断网络的作用是将生成网络生成的高分辨图像断定为假，这样网络在训练的时候，生成网络和断定网络两者之间一直博弈，最终达到均衡，从而生成细节纹理比拟真切的高分辨图像，具备更好的主观视觉效果。其余深度卷积网络办法比方 SRDenseNet、EDSR、RDN，应用了更简单的网络结构，网络的卷积层越来越深，在单张图像上的超分辨成果也越来越好。

超分辨技术倒退的总体趋势，基本上能够概括为从传统办法，到深度学习办法，从简略的卷积网络办法到深度残差网络办法。在这个过程中，超分辨模型构造越来越简单，网络档次越来越深，单张图像的超分辨成果也越来越好，不过这也会有肯定的问题。

在 RTC 畛域，对于视频解决工作来说，大多是直播和会议等即时通信场景，对算法的实时性要求比拟高，所以视频解决算法的实时性是优先思考的。而后是算法的实用性，因为用户在应用直播或会议时，摄像头采集到的视频品质有时比拟低下，可能蕴含很多噪点；另外视频在编码传输时会先进行压缩，压缩的过程也会导致图像画质进化，所以 RTC 理论利用场景比较复杂，而很多视频解决办法，比方超分辨算法在钻研中的是比拟现实的场景。最初，如何晋升用户尤其是挪动端用户的体验，缩小算法的计算资源占用，实用更多终端和设施，也是视频工作所必须思考的。

对于这些需要，目前的超分辨办法尤其是基于深度学习的超分辨办法是存在很多问题的。目前学术界对于超分辨的钻研大多还是局限在实践阶段，图像超分，尤其是视频超分如果要大规模落地的话，必须要去解决一些理论问题。首先是网络模型的问题，目前很多深度学习办法为了谋求更好的超分辨成果，采纳的模型规模比拟宏大，参数量越来越多，会消耗大量的计算资源，在很多理论场景无奈实时处理。其次是深度学习模型的泛化能力问题，对于各种深度学习模型来说，都会存在训练集适配的问题，在训练的时候所应用的训练集不同，在不同场景上的体现也不同，用公开数据集训练的模型，在理论利用场景中未必会有同样良好的体现。最初是实在场景下超分成果的问题，目前学术界的超分办法，大都是对于比拟现实的场景，实现从下采样图像到高分辨图像的重建，但在实在场景中，图像进化不仅包含下采样因素，还会有很多其余因素，比方图像压缩、噪点、含糊等。

综上而言，目前基于 AI 的超分辨办法，在 RTC 视频工作中，所面临的次要挑战能够概括为，如何凭借规模比拟小的网络来实现具备良好实在成果的视频品质加强，也就是怎么样“既叫马儿跑得快，又让马儿少吃草”。

首先，深度学习办法仍然会是超分辨算法的支流。

因为传统的办法在超分辨工作上的成果不够现实，细节比拟差。深度学习办法为超分辨提供了一条新的思路。近年来基于卷积神经网络的超分辨办法，逐步成为支流办法，成果也在一直改善。

从上图能够看到，近几年来，基于 AI 的超分辨办法绝对于传统办法的论文数量呈现出一边倒的场面，并且这种场面在将来几年还会进一步扩充。因为尽管存在一些问题，但随着一些轻量级网络的呈现，深度学习办法未来在落地利用方面可能会有更大的冲破，这些问题也将会得以解决，深度学习办法仍然会是超分辨的支流钻研方向。

其次，一些参数较小的轻量级网络，在推动超分算法落地方面，会施展更大的作用。

因为目前各种深度卷积网络办法，比方 EDSR、RDN 这类深度残差网络难以满足视频实时传输的须要，一些比拟小的轻量级网络对于实时工作会有更好的成果。

第三，未来的超分辨办法会更加聚焦实在场景工作。

学术畛域的 SR 办法多是针对下采样问题进行超分，在实在场景下的体现并不是很好，在实在场景中，图像进化因素是各种各样的，一些比拟有针对性的办法，比方蕴含压缩损失、编码损失以及各种噪声的超分辨工作，可能会更加实用。

在 RTC 畛域中，因为视频文件过于宏大，咱们须要对其进行编码，而后再传输到接收端解码播放。因为编码的实质是对视频的压缩，当网络比拟差时，编码量化参数会比拟大，会造成重大的压缩，导致输入图像产生块效应和其余失真，造成画质含糊。这种状况下，如果间接将解码后的视频进行超分，压缩损失也会被放大，超分成果往往不够现实。针对这些问题，网易云信提出了基于编码损失还原的视频超分辨办法，采纳数据驱动和网络设计并重的策略，通过数据处理模仿实在失真场景，并且从模型设计到工程化实现进行层层优化，对于制约 AI 超分技术的两大问题有了肯定的冲破，在模型实时性和实在场景超分成果方面获得了不错的成果。

以上就是网易云信在推动 AI 驱动的超分技术落地利用方面的一些实践经验，心愿对大家有所启发和参考。

更多技术内容欢送关注微信公号 【网易智企技术 +】

关于RTC:AI驱动的超分辨技术落地实践

一、超分辨技术概述

1. 超分辨技术的提出

2．超分辨技术的分类

3. DL-based SR

二、实时视频工作的需要与 SR 的挑战

三、视频超分辨技术的倒退方向

四、网易云信 AI 超分算法