共计 1583 个字符,预计需要花费 4 分钟才能阅读完成。
编译 | CV 君
报道 | 我爱计算机视觉(微信 id:aicvml)
CNN 让超分后果更实在,GAN 让超分后果更饱满,所以 CNN+GAN=GOOD!
增加一个鉴别器组件就能使后果减少 0.32dB,即插即用,涨点神器!是否在其余的 CNN 架构上也可行,还需试验验证。
题目:iSeeBetter:iSeeBetter: Spatio-temporal video super-resolution using recurrent generative back-projection networks
论文:https://arxiv.org/pdf/2006.11…
代码:https://github.com/amanchadha…
看点
CNN 在大尺度上的超分往往不足精密的细节纹理,生成性反抗网络可能缓解这个问题。为此,本文提出了一种基于 GAN 的时空视频超分办法——iSeeBetter,亮点如下:联合了 SR 中的 SOTA 技术: 应用循环反投影网络 (RBPN) 的作为其生成器,从以后帧和相邻帧中提取时空信息。应用 SRGAN 中的鉴别器,进步了超分辨率图像的“自然性”,加重了传统算法中的伪影。优化了损失函数的架构: 本文应用了四重损失函数(MSE、感知损失、反抗损失和全变差损失(TV))来捕获均方误差(MSE)可能无奈捕捉到的图像中的精密细节,增强生成视频的感知品质。
办法
下图展现了别离由 RBPN 和 SRGAN 作为生成器和鉴别器的 iSeeBetter 架构。
RBPN 中的投影模块有两种从不同起源提取缺失细节的办法:SISR 和 MISR。下图展现了应用 DBPN 作为 SISR 构造的程度流(图 2 中的蓝色箭头)。
下图展现了应用五个残差块作为 MISR 构造的垂直流(图 2 中的红色箭头),MISR 的输出由 LR 帧、相邻帧以及它们之间的密集动作流图组成。
在每个投影中,RBPN 察看 LR 中失落的细节,并从相邻帧中提取残差特色来复原细节。RBPN 利用循环编解码机制来交融从 SISR 和 MISR 中提取的细节,并通过反投影将它们合并到 SR 帧中。一旦合成了 SR 帧,它就被到鉴别器中以验证其“真实性”,鉴别器采纳 SRGAN 的鉴别器,构造如下图所示。
损失
生成的 SR 图像的感知品质取决于损失函数的抉择。为了评估图像的品质,MSE 是各种办法中最罕用的损失函数,其目标是进步图像的 PSNR。然而这可能无奈捕捉图像中的精密细节,从而影响感知品质。同时,MSE 捕捉简单纹理细节的能力无限,生成的视频帧过于平滑。为了解决这些问题,iSeeBetter 应用了四重损失,并将这些损失综合起来作为训练 iSeeBetter 的最终评估规范。
MSE 损失
MSE 损失也称内容损失,其中 θ 示意 SR 帧。
感知损失
感知损失定义为 SR 帧的特色示意 θ 与实在帧 HR 之间的欧氏间隔。它关注的是感知相似性,而不是像素空间中的相似性。依赖于从 VGG-19 网络中提取的特色。
其中示意第个池化层之前卷积激活后的特色图。
反抗损失
反抗损失限度模型的“空想”,进步了超分辨图像的“自然性”。定义如下:
其中,θθ 是鉴别器认为生成图像是实在图像的输入概率。本文最小化去取得更佳的梯度行为。
全变差损失
全变差损失定义为程度方向和垂直方向上相邻像素之间的相对差之和。因为 TV 损失测量输出中的噪声,因而将其最小化作为总体损失指标的一部分有助于去除输入 SR 帧中的噪声,从而进步空间平滑度。定义如下:
总损失
生成器的总损失为下面四个损失的加权和,如下图所示:
其中是权重,值别离为 1,,,。鉴别器的总损失如下:
试验
数据集
为了使 iSebetter 更加强壮,并使其可能解决真实世界的视频,作者从 YouTube 收集了额定的数据,将数据集裁减到大概 170000 个片段,训练 / 验证 / 测试别离为其中的 80%/10%/10%。训练时采纳 BI 的降质形式,下图展现了数据集的组成。
融化试验
对所提出的架构和损失函数进行融化试验: