关于音视频:超分辨率技术在实时音视频领域的研究与实践

46次阅读

共计 4686 个字符,预计需要花费 12 分钟才能阅读完成。

前言

近日,计算机视觉和模式识别畛域顶级会议 CVPR 在美国新奥尔良市举办,同时计算机图像复原畛域最具影响力的全球性顶级赛事 NTIRE 在会上颁奖,网易云信音视频实验室获得 NTIRE 高效率超分辨率挑战赛总体性能赛道冠军,以及运行工夫赛道季军。本文将着眼于 AI 超分技术从钻研到部署的落地问题,介绍超分辨率技术现状,以及视频超分在挪动端落地利用所面临的时机与挑战。

超分辨率技术概述

近年来,互联网视频数据呈爆炸式增长。与此同时,视频的分辨率也越来越高,以满足人们对视频体验品质(Quality of Experience, QoE)日益增长的需要。然而,因为带宽的限度,网络传输视频通常会被降采样和压缩,这不可避免地会导致视频品质的降落,进而影响用户的体验与观感。超分技术旨在从低分辨率输出中复原出视觉品质更佳的高分辨率输入,能够无效地解决视频品质不佳的问题,从而满足播放端用户对于极致高清画质的需要。在直播点播、监控设施、视频编解码、手机拍摄、医学影像、数字高清和视频还原等畛域都有十分重要的利用价值。

超分辨率技术的分类与倒退方向

超分辨率技术狭义上讲蕴含 3 种状况: 单幅图像超分辨率、从多帧间断图像中超分辨率重建单帧图像、视频序列的超分辨率重建。

单幅图像放大次要利用对髙分辨率图像的先验常识和以混叠模式存在的高频信息进行还原。后两种状况除了利用先验常识和单幅图像信息外,还能够利用相邻图像之间的互补信息进行超分辨率重建,失去比任何一幅低分辨率图像分辨率都高的高分辨率图像,然而这两种状况常带来难以承受的计算成本与邻帧重建不间断的危险。因而,在理论落地时,偏差于单图超分辨率技术。

依照工夫和成果进行分类,能够将单幅图像超分辨率算法分为传统算法和深度学习算法两类。

传统超分辨率重建算法

传统的超分辨率重建算法次要依附根本的数字图像处理技术进行重建,常见的有如下几类:

基于插值的超分辨率重建:基于插值的办法将图像上每个像素都看做是图像立体上的一个点,那么对超分辨率图像的预计能够看做是利用已知的像素信息为立体上未知的像素信息进行拟合的过程,这通常由一个预约义的变换函数或者插值核来实现。基于插值的办法计算简略、易于了解,但存在较为显著的缺点。还原出的图像经常呈现含糊、锯齿等景象。常见的基于插值的办法包含最近邻插值法、双线性插值法和双立方插值法等。

基于进化模型的超分辨率重建:此类办法从图像的降质进化模型登程,假设高分辨率图像是通过了适当的静止变换、含糊及噪声才失去低分辨率图像。这种办法通过提取低分辨率图像中的要害信息,并联合对未知的超分辨率图像的先验常识来束缚超分辨率图像的生成。常见的办法包含迭代反投影法、凸集投影法和最大后验概率法等。

基于学习的超分辨率重建:基于学习的办法则是利用大量的训练数据,从中学习低分辨率图像和高分辨率图像之间某种对应关系,而后依据学习到的映射关系来预测低分辨率图像所对应的高分辨率图像,从而实现图像的超分辨率重建过程。常见的基于学习的办法包含流形学习、稠密编码方法。

基于深度学习的超分辨率重建算法

SRCNN 是深度学习办法在超分辨问题的首次尝试,是一个比较简单的卷积网络,由 3 个卷积层形成,每个卷积层负责不同的职能。第一个卷积层的作用次要是负责提取高频特色,第二个卷积层则负责实现从低清特色到高清特色的非线性映射,最初一个卷积层的作用是重建出高分辨率的图像。SRCNN 的网络结构比较简单,超分辨成果也有待改善,不过它确立了深度学习办法在解决超分辨这类问题时的根本思维。起初的深度学习办法,根本都遵循这一思维去进行超分辨的重建。

起初的 ESPCN 基于 SRCNN 进行了一些改良,但因为网络重建能力无限,超分辨的成果也不是特地现实。因为在过后,深度卷积网络的训练是存在问题的。个别对于卷积神经网络来说,当网络层数减少的时候,性能也会减少,但在理论利用中,人们发现当网络层数减少到了肯定水平,因为反向流传原理,就会呈现梯度隐没的问题,导致网络收敛性变差,模型性能升高。这个问题直到 ResNet 提出残差网络结构之后,才失去比拟好的解决。但值得注意到是,ESPCN 网络首次提出了亚像素卷积层,去除了低分辨率图像送入神经网络前的预上采操作,极大升高了 SRCNN 的计算量,进步了重建效率。

VDSR 是残差网络以及残差学习思维在超分辨问题上的首次利用,将超分辨网络的层数首次减少到了 20 层。利用残差学习的形式,网络学习残差特色,网络收敛快,对细节更加敏感。起初一些卷积神经网络提出了更简单的构造,比方 RGAN 提出应用生成式反抗网络来生成高分辨的图像,SRGAN 由 2 局部组成,一个是生成网络,另一个是判断网络。生成网络的作用是依据一张低分辨率的图像来生成一张高分辨的图像,而判断网络的作用是将生成网络生成的高分辨图像断定为假,这样网络在训练的时候,生成网络和断定网络两者之间一直博弈,最终达到均衡,从而生成细节纹理比拟真切的高分辨图像,具备更好的主观视觉效果。其余深度卷积网络办法比方 SRDenseNet、EDSR、RDN,应用了更简单的网络结构,网络的卷积层越来越深,在单张图像上的超分辨成果也越来越好。

然而,因为高计算成本与内存占用,许多工作难以部署在资源无限的设施上。为此,超分辨率的高效模型设计也引起宽泛关注。FSRCNN 采纳紧凑的沙漏型架构首次减速 SR 网络;DRCN 和 DRRN 采纳递归层来构建具备较少参数的深度网络。CARN 通过将无效残差块与组卷积相结合,缩小了 SR 网络的计算。还引入了留神机制来找到信息量最大的区域,以更好地重建高分辨率图像。另外,常识蒸馏也被援用到轻量型超分辨率网络,以进步它们的性能。

实时视频超分辨率的挑战

在挪动互联网时代,挪动端作为视频内容最重要承载平台,负责着大量的 PGC 和 UGC 视频内容的播放,但受限于模型泛化能力有余,挪动端算力无限,算法计算复杂度低等问题,基于 AI 的超分辨率算法的以下个性使得其在挪动端上进行实时部署时面临着微小挑战:

主观成果不佳,间接应用以上提到的基于深度学习的超分辨率算法,会发现其主观成果和 Bicubic 等传统算法差不多,对视频画质的晋升成果很无限。

学界 SOTA 办法网络模型参数量过大,即便以轻便称的诸多网络,参数量也都大于 500K,这就导致模型运算量过大,推理很慢,无奈满足挪动端实时处理视频的要求。

云信 AI 超分

基于实在下采样的训练数据

现有的基于深度学习的超分辨率算法的训练数据,往往是通过 Bicubic 或者其余已知下采样形式失去的。然而往往实在场景并不是,从而导致模型训练数据和理论预测数据存在比拟大的差距,使得超分算法成果不够现实。

咱们采纳一种同样基于反抗生成网络的实在下采样生成形式。如下图所示,对于一张高分辨率图,咱们训练下采样生成器 G 和判断器 D,使得 G 生成的低分辨率图和实在低分辨率图靠近,从而失去实在下采样 G。失去了 G 当前咱们便能够利用高分辨率图大量生成满足实在下采样进化的训练数据对。

云信超分辨率算法

网易云信视频实验室提出一种面向边缘的高效特色蒸馏网络(EFDN),在 2022 年 CVPR NTIRE 高效率超分辨率挑战赛中,Overall Performance 赛道云信以显著劣势取得第一名,Runtime 赛道取得第三名的好问题。

较量残缺报告:

https://arxiv.org/abs/2205.05675

该办法为了晋升模型的精度以及升高模型的开销,基于构造重参数的思维,在训练阶段用面向边缘的卷积块(ECB)代替残差特色蒸馏模块(RFDB)中的 SRB 浅残差块,在推理阶段将面向边缘的卷积块(ECB)转换为一般的 3 ×3 卷积层,该办法能够更高效地提取图像的纹理信息和边缘信息,在升高开销的同时晋升网络性能;同时对加强空间注意力(ESA)模块进行裁剪,缩小参数量以及减少池化层步长,进一步缩小了算法开销。

为了进一步工程落地,失去一个可在挪动设施上实时运行的模型,综合效率与成果,云信团队采纳了以下几种优化办法:

模型压缩:在理论落地过程中,为了满足实时处理的要求,咱们在 CVPR NTIRE 2022 高效率超分挑战赛参赛模型 - 一种面向边缘的高效特色蒸馏模块(EFDN)的根底上,利用通道剪枝,常识蒸馏等模型压缩技术在优化后的模型架构上进一步缩小模型中冗余的参数,去掉对模型性能奉献小的通道,达到减小模型复杂度的目标。同时采纳量化技术将权重以低比特存储,从而减小模型体积,减速计算。

工程优化:在挪动设施算力、内存带宽无限的状况下,既要满足超分算法实时处理视频的要求,又不能减少太多耗电,对工程化部署要求十分高。咱们在工程侧的优化次要通过 SIMD,模型内存优化,数据排布优化等优化办法节俭内存开销以及推理耗时,同时深度联合业务场景实现算法在渲染管线与设施之间内存零拷贝,实现了算法的高性能落地。

下表是云信超分在不同平台 / 设施上的单帧耗时。

成果展现与将来瞻望

挪动端视频超分能冲破编解码界线与视频传输的效率瓶颈,优化视频传输速度、播放晦涩度等用户体验,并带来泛滥实际效果:

  • 晋升视频清晰度,利用高端机屏幕的高分辨率劣势,低清视频高清播放,高清视频提供超高清画质,晋升用户视频生产体验。
  • 升高带宽,通过发送端 / 服务端升高转码散发视频分辨率,联合接收端超分解决出现高分辨率成果,升高高清播放门槛,晋升晦涩度,加重用户网络压力。

将来,咱们将继续优化包含超分算法在内的视频加强算法,打造业界顶尖程度的图像复原和图像增强技术,帮忙客户进步视频画质,升高视频播放老本,提供更低耗时,更低功耗,更好的主观品质,笼罩更多的机型以及节俭更多的码率的算法, 让用户在不同手机、不同网络环境下享受超高清视频体验。


 左为 Bicubic 上采样后果,右为超分优化后果

参考资料 

[1] Yawei Li, Kai Zhang, Luc Van Gool, Radu Timofte, et al. Ntire 2022 challenge on efficient super-resolution: Methods and results. In IEEE Conference on Computer Vision and Pattern Recognition Workshops, 2022.

[2] Zheng Hui, Xinbo Gao, Yunchu Yang, and Xiumei Wang. Lightweight image super-resolution with information multi-distillation network. In Proceedings of the ACM International Conference on Multimedia, pages 2024–2032, 2019.

[3] Jie Liu, Jie Tang, and Gangshan Wu. Residual feature distillation network for lightweight image super-resolution. In European Conference on Computer Vision Workshops, pages41–55. Springer, 2020.

[4] Zhang, Xindong and Zeng, Hui and Zhang, Lei. Edge-oriented Convolution Block for Real-time Super Resolution on Mobile Devices. In Proceedings of the 29th ACM International Conference on Multimedia, pages4034–4043. 2021.

正文完
 0