关于超分辨率:TIP2021-视频超分辨率中的多级特征融合网络

38次阅读

共计 1546 个字符,预计需要花费 4 分钟才能阅读完成。

作者 | Salted Fish
编辑 | CV 君
报道 | 我爱计算机视觉(微信 id:aicvml)

论文链接:

https://ieeexplore.ieee.org/d…

看点

现有的 VSR 办法的次要问题是参考帧的特色与相邻帧的特色的交融是一步的,交融后的特色可能与原始 LR 中的视觉信息有较大的偏差。本文提出了一种端到端的多阶段特色交融网络,次要奉献为:

  1. 提出了一种新的 VSR 特色交融办法,该办法容许在主干网的不同阶段汇集空间和工夫特色。
  2. 多尺度可变形对齐模块,用于在特色级别对齐帧。

办法

overview

下图显示了框架 ,包含两个子网:工夫对齐网络 和调制特色交融网络

承受 输出,预计相邻帧的对齐特色,而后,将相邻帧的所有对齐特色连贯为:

ψ 共享给所有的 SFT,逐渐与 的多阶段特色交融,失去预测的 HR 帧

工夫对齐网络(TAN)

给定 LR 帧 通过观察像素的时空邻域以非显示静止弥补的形式来工夫对齐 LR 帧和相邻帧。该算法包含三个模块:特征提取模块、多尺度扩大变形(MDD)对齐模块和注意力模块。

特征提取模块:由一个卷积层和 5 个具备 ReLU 的残差块组成。利用共享的特征提取模块从 中提取特色 并将其输出 MDD 对齐模块。

MDD 对齐模块:下图显示了 MDD 对齐模块的体系结构。输出的 串接并馈入 3×3 瓶颈层,以缩小特色映射的通道。

先并行地重叠两个 3×3 和 5×5 卷积核以提取多尺度特色。而后,将特色输出两个不同的扩张率为 2 和 3 的 3×3 的核中,有利于扩充感触野。

这种简略的设计能够无效地扩充接管野,其计算量远低于 EDVR 中的 PCD 对准模块。因而,MDRB 有助于利用帧间像素的工夫依赖性,即便在蒙受简单和大静止时,也能生成精确的偏移量参数

通过偏移量计算对齐特色:

注意力模块:因为遮挡、含糊区域和视差问题,容易产生一些未对齐,使得不同空间地位的对齐特色信息不相等,从而导致在某些特色上与参考帧存在较大差别。故设计了一个空间留神掩码 M 去衡量

其中,测量 之间的像素级相似性,定义为:

其中,应用 L1 间隔 去更加关注高置信度地位的特色。

调制特色交融网络

现有的 SOTA 办法通常首先通过级联将参考帧和对齐的相邻特色交融,而后将它们馈送到重构网络中以产生 HR 输入。然而,这种单阶段交融策略有两个局限性:

第一,对齐的相邻帧和参考帧在特色级有大量类似的模式,因而,简略地将它们串联在一起会给重建网络带来大量的冗余,导致低廉的计算成本。

第二,交融只产生在初始层,随着深层网络档次的加深,来自相邻帧的互补工夫信息将逐步削弱。为了解决上述问题,本文提出了 级联一组插在分支骨干不同深度的 MRFBs。采纳 SRResNet 的高级体系结构作为分支骨干。

每个 MRFB 蕴含一个 SFT 层,该层以工夫对齐特色 ψ 作为共享条件,从参考帧调制其输出特色映射。SFT 层通过缩放和移位操作输入以 ψ 为条件的的仿射变换:

其中 γ 和 β 是缩放比例和位移的参数。将 ψ 送入不同权值的卷积层,能够失去变换参数 γ 和 β。在每个 MRFB 中,在所有卷积层之后注入 SFT 层,在多阶段交融过程中,利用对齐的工夫信息统一地加强了参考帧的视觉信息。

最初,咱们通过一个反馈跳过连贯将从最初一个 MRFB 学习到的高级特色反馈给第一个 MRFB 的输出层。这个反馈机制利用高层信息对底层特色进行细化,细化后的特色通过调制特色交融网络,便于学习从 LR 到 HR 图像空间的简单非线性映射,无需额定的参数。

试验

施行细节

应用 Vimeo-90K 数据集的一个子集 Septuplet 来训练模型。应用 Charbonnier 惩办函数作为损失,蕴含 16 个 MFRB。

融化试验

定量评估

不同对准模块的比拟

同交融策略的比拟,其中,DF 将多帧的对齐特色串联起来,而后通过 2d 卷积进行一级交融。3DF 间接利用三维卷积来提取时空特色并进行一级交融。

与 SOTA 的 PSNR 比照

END

正文完
 0