关于计算机视觉:阿里优酷视频增强和超分辨率挑战赛冠军方案VESRNet

33次阅读

共计 1643 个字符,预计需要花费 5 分钟才能阅读完成。

作者 | Wangsy
编辑 | CV 君
报道 | 我爱计算机视觉(微信 id:aicvml)

作者单位:中国科学技术大学、微软亚洲研究院

论文:https://arxiv.org/pdf/2003.02…

挑战赛:https://tianchi.aliyun.com/co…

看点

视频加强与超分辨率(VESR)旨在从噪声和低分辨率视频帧中复原高分辨率的细节。为了推动钻研从受事实世界进化影响的低质量视频中复原高质量视频,优酷举办了视频加强和超分辨率挑战赛,以摸索在线视频应用程序中实在进化的数据集的 VESR 解决方案。

该文介绍了 VESR-Net,它在优酷 VESR 挑战赛中取得第一名。具体的说:

1. 设计了一个独立的非部分(Separate NL)模块来无效地摸索视频帧之间的关系并对视频帧进行交融;

2. 设计了一个通道留神残差块(CARB),用于在 VESR 网络中捕捉视频帧重构的特色映射之间的关系。

Youku-VESR 挑战

挑战赛了收集 1000 个 1080p 视频片段,包含高分辨率和低分辨率视频对。该数据集蕴含了多种类型的内容,在在线视频观看利用中,低分辨率视频会受到不同噪声的影响。

挑战阶段:

第一阶段,所有参与者失去 200 对 LR 和 HR 视频用于训练,50 对 LR 视频用于评估。

第二阶段,Youku 公布 650 对 LR 和 HR 视频用于培训,100 对 LR 视频用于验证。

第二阶段的 LR 视频比第一阶段的视频进化更重大。在该文所提及的办法中,对于一共 1000 个视频片段,宰割了 50 个视频用于评估,剩下的视频用于训练。

评估阶段:

评估阶段定量指标是峰值信噪比(PSNR)和视频多办法评估交融(VMAF)。测试为前 5 个视频中的所有帧和剩下视频中的每隔 5 帧的下一帧。

办法

overview

VESR-Net 由两局部组成:帧间交融的交融模块和帧内融合的重构模块。交融模块的指标是通过从相邻帧中提取有用信息,同时疏忽工夫冗余信息来交融相邻帧进行两头帧重建。

因而,该文提出了一个独立的非部分模块来模仿视频特色之间的关系。在帧重建模块中,在残差块中引入了通道留神机制,以实现高效重建。

每个模块的具体网络架构如下表:

独立的非部分模块

在计算机视觉中的自留神机制称为非部分神经网络。然而,因为非部分神经网络中关系矩阵的高维性,非部分运算耗费了大量的参数,尤其是对于视频特色。因而,该文设计了一种新的称为独立非本地的模块,在较浅的网络中能够达到更好的性能。

该设计了三种类型的留神模块,以摸索不同维度的全局上下文信息。

首先,在三个分支中别离生成两个新的特色映射 A1、A2、A3 和 B1、B2、B3。

而后将它们 reshape 到 C×T×(N×W)、T×H×W×C、C×H×W×T,通过矩阵乘法失去三个关系矩阵。M1、M2 和 M3 别离示意不同空间上下文、不同通道和不同工夫步长之间的相似性。

同时,将视频特色 F 输出到三个卷积层中,生成新的与 B 在同一空间中的特色映射 D1、D2、D3。接下来,对 D1,D2,D3 的转置与 M1,M2,M3 进行矩阵乘法,失去后果 E1,E2,E3。

最初,在 E1,E2,E3 和 F 之间进行元素和运算,失去交融特色。

通道留神残差块

重建模块中残差块中的通道留神机制是 VESR 高效重构和良好性能的根底。在 CARB 中,首先执行全局均匀池化获取通道形容 W。

而后通过两个线性层失去通道权值 Z,并将通道权值 Z 与视频特色 X 相乘,最初将相乘的后果与视频特色进行 concat,输出进 1×1 卷积层失去最终输入。

试验

融化试验

对提出的独立非部分模块和通道留神残差块进行融化试验,并与 EDVR 进行比照。(此处没有给两个模块都没有的试验数据,如果两个模块都没有就比 EDVR 性能好,该论文就没有很大的意义了,不如去讲讲没有这两个模块为什么还会比 EDVR 性能好)

量化评估

为了偏心比拟,EDVR 作为 baseline 采纳了 20 个残差块,其参数数量与 VESR-Net 相当。在设计的独立非部分模块和通道留神残差块的帮忙下,VESR-Net 比 EDVR 网进步了 0.22dB,并且计算复杂度较低。

END

正文完
 0