关于算法:即插即用视频超分中的涨点神器iSeeBetter

编译 | CV君
报道 | 我爱计算机视觉（微信id：aicvml）

CNN让超分后果更实在，GAN让超分后果更饱满，所以CNN+GAN=GOOD!
增加一个鉴别器组件就能使后果减少0.32dB，即插即用，涨点神器！是否在其余的CNN架构上也可行，还需试验验证。
题目：iSeeBetter：iSeeBetter: Spatio-temporal video super-resolution using recurrent generative back-projection networks
论文：https://arxiv.org/pdf/2006.11...
代码：https://github.com/amanchadha...

看点

CNN在大尺度上的超分往往不足精密的细节纹理，生成性反抗网络可能缓解这个问题。为此，本文提出了一种基于GAN的时空视频超分办法——iSeeBetter，亮点如下：联合了SR中的SOTA技术： 应用循环反投影网络(RBPN)的作为其生成器，从以后帧和相邻帧中提取时空信息。应用SRGAN中的鉴别器，进步了超分辨率图像的“自然性”，加重了传统算法中的伪影。优化了损失函数的架构： 本文应用了四重损失函数（MSE、感知损失、反抗损失和全变差损失(TV)）来捕获均方误差（MSE）可能无奈捕捉到的图像中的精密细节，增强生成视频的感知品质。

办法

下图展现了别离由RBPN和SRGAN作为生成器和鉴别器的iSeeBetter架构。

RBPN中的投影模块有两种从不同起源提取缺失细节的办法：SISR和MISR。下图展现了应用DBPN作为SISR构造的程度流（图2中的蓝色箭头）。

下图展现了应用五个残差块作为MISR构造的垂直流（图2中的红色箭头），MISR的输出由LR帧、相邻帧以及它们之间的密集动作流图组成。

在每个投影中，RBPN察看LR中失落的细节，并从相邻帧中提取残差特色来复原细节。RBPN利用循环编解码机制来交融从SISR和MISR中提取的细节，并通过反投影将它们合并到SR帧中。一旦合成了SR帧，它就被到鉴别器中以验证其“真实性”，鉴别器采纳SRGAN的鉴别器，构造如下图所示。

损失

生成的SR图像的感知品质取决于损失函数的抉择。为了评估图像的品质，MSE是各种办法中最罕用的损失函数，其目标是进步图像的PSNR。然而这可能无奈捕捉图像中的精密细节，从而影响感知品质。同时，MSE捕捉简单纹理细节的能力无限，生成的视频帧过于平滑。为了解决这些问题，iSeeBetter应用了四重损失，并将这些损失综合起来作为训练iSeeBetter的最终评估规范。

MSE损失

MSE损失也称内容损失，其中示意SR帧。

感知损失

感知损失定义为SR帧的特色示意与实在帧HR之间的欧氏间隔。它关注的是感知相似性，而不是像素空间中的相似性。依赖于从VGG-19网络中提取的特色。

其中示意第个池化层之前卷积激活后的特色图。

反抗损失

反抗损失限度模型的“空想”，进步了超分辨图像的“自然性”。定义如下：

其中，是鉴别器认为生成图像是实在图像的输入概率。本文最小化去取得更佳的梯度行为。

全变差损失

全变差损失定义为程度方向和垂直方向上相邻像素之间的相对差之和。因为TV损失测量输出中的噪声，因而将其最小化作为总体损失指标的一部分有助于去除输入SR帧中的噪声，从而进步空间平滑度。定义如下：

总损失

生成器的总损失为下面四个损失的加权和，如下图所示：

其中是权重，值别离为1，，，。鉴别器的总损失如下：

试验

数据集

为了使iSebetter更加强壮，并使其可能解决真实世界的视频，作者从YouTube收集了额定的数据，将数据集裁减到大概170000个片段，训练/验证/测试别离为其中的80%/10%/10%。训练时采纳BI的降质形式，下图展现了数据集的组成。

融化试验

对所提出的架构和损失函数进行融化试验：

看点

办法

损失

MSE损失

感知损失

反抗损失

全变差损失

总损失

试验

数据集

融化试验

量化评估