乐趣区

关于人工智能:SRCNN基于深度学习的超分辨率开山之作回顾

本文提供了与 SRCNN 论文的总结和回顾,如果你对于图像的超分辨率感兴趣,肯定要先浏览这篇论文,他能够说是所有基于深度学习的超分辨率模型的鼻祖

卷积神经网络通常用于分类,指标检测,图像宰割等与某些与图像无关的问题中。在本文中,将介绍 CNN 如何用于单图像超分辨率(SISR)。这有助于解决与计算机视觉相干的各种其余问题。在 CNN 呈现之前,传统的办法是应用最近邻插值、双线性或双三次插值等上采样办法,也能够获得不错的成果。

  • Nearest Neighbors Interpolation — 最近邻插值是一种简单明了的办法。它为每个插值点抉择最近像素的值,而不思考任何其余像素的值。
  • Bilinear Interpolation (BLI) — 双线性插值 这是一种在图像的一个轴上进行线性插值,而后再挪动到另一个轴的技术。因为它产生了一个承受域大小为 2×2 的二次插值,所以它在放弃正当速度的同时优于最近邻插值。
  • Bicubic Interpolation(BCI) — 双三次插值与双线性插值一样,双三次插值 (BCI) 在两个轴上进行。与 BLI 相比,BCI 思考 4×4 像素,从而产生更平滑的输入,具备更少的伪影,但速度要慢得多。

本文介绍的 SRCNN 模型根本由三个应用步骤组成:

  • 区块补丁提取和示意
  • 非线性映射
  • 重建

相干工作

个别状况下 SISR(Single Image Super Resolution,)能够总结为以下 4 种办法——预测模型、基于边缘的办法、图像统计办法和基于补丁(或基于样本)的办法。SRCNN 应用基于补丁的办法。利用输出图像外部样本的自相似性属性来生成补丁。SRCNN 应用稠密编码公式来映射低分辨率和高分辨率的补丁,并且图像思考了 YCbCr 色彩通道。

用于图像复原的深度学习

大多数图像复原深度学习办法都是去噪驱动的。尽管自编码器不能提供从低分辨率到高分辨率图像的端到端映射,然而在去噪图像畛域体现得十分好,而 SRCNN 专一于解决这个问题。

CNN 超分辨率

对于一个繁多的低分辨率图像:首先应用双三次插值将其放大到适当的大小,这是惟一要做的预处理。应用术语“Y”来形容咱们正在议论的内容。Y 是插值图像。咱们的指标是让图像 F(Y) 回到与高分辨率实在图像 (X) 尽可能靠近的 Y 上。咱们依然将 Y 称为“低分辨率”,因为它易于出现,只管它与 (X) 大小雷同。而模型的目标是学习 F(Y) 映射,它由三局部操作组成:

1、补丁提取和示意:该操作从低分辨率图像 Y 中提取(重叠)补丁,而后将每个补丁示意为一个高维向量。这些向量由一组特色图组成,其数量等于向量的维度。

2、非线性映射:每个高维向量在这个过程中非线性映射到另一个高维向量上。高分辨率补丁在概念上由每个映射向量示意。另一个特色图汇合由这些向量组成。

3、重建:这个过程联合了后面提到的高分辨率补丁示意来产生最终的高分辨率图像。此图像应相似于 X 实在图像。

补丁提取和示意

采纳提取小块的办法,通过一组预训练的根底(例如 PCA、DCT 离散余弦变换等)来示意它,这种技术十分的常见。这与通过一系列卷积核(过滤器)的运行图像雷同。操作示意为:这里 W1,B1 是过滤器和偏差,* 示意执行卷积。W1 是反对 c x f1 x f1 的 n1 个过滤器,其中 c 代表通道,f1 是过滤器的大小。B1 的大小为 n1。

非线性映射

执行非线性映射以缩小维度,并尝试保持数据点之间的间隔。

这里 W2 是 n1 x f2 x f2 x n2 并且 f2 = 1,n1>n2。

重建

最初,卷积层再次用于生成最终的高分辨率图像。

W3 的大小为 n2 x f3 x f3,B3 是 c 维向量。

与基于稠密编码的办法的关系

在稠密编码(Sparse Coding / SC)的状况下,输出图片通过 f1 进行卷积并投影到 n1 维字典上。在大多数状况下 n1=n2。而后,在没有缩小维度的状况下,n1 到 n2 被映射为雷同的维度。它相似于将低分辨率矢量映射到高分辨率矢量。之后 f3 重建每个补丁并卷积对重叠的补丁进行均匀,而不是将它们与不同的权重放在一起。

训练过程

训练图像时的损失函数是 MSE 均方误差。

模型应用 T91 和 ImageNet 进行训练。为了评估 SRCNN,思考了图像复原中风行的评估指标 PSNR(峰值信噪比)。T91 个图像数据集的 SRCNN 为 31.42,ImageNet 数据集为 35.2 dB(分贝),与之前的超分辨率技术相比,两者的性能都十分杰出。

上图中能够看到 SRCNN 体现更好,在图像超分辨率 SRCNN 的其余评估指标中也体现良好。Set14 数据集是来自 T91 图像数据集的子图像,其中 24.800 个子图像应用步幅 14 和高斯含糊。

总结

通过这么多年的倒退,相比于 SRGAN 等图像超分辨率的最先进模型,SRCNN 必定曾经被超过了。然而 SRCNN 是一个简略模型,应用仅仅 3 层就解决了解决图像复原问题并且产生了十分好的成果,目前超分方向的论文基本上都是以他的钻研为根底的,所以如果你对图像超分感兴趣,或者想深刻学习的话,这篇论文肯定要看。

论文地址:

Image Super-Resolution Using Deep Convolutional Networks https://arxiv.org/abs/1501.00092

最初这里有个残缺代码,能够间接线上运行:

https://www.overfit.cn/post/e0f8f992ac8d43f1945564b1fd0f14b6

作者:Jitesh Rawat

退出移动版