共计 1211 个字符,预计需要花费 4 分钟才能阅读完成。
Contextual Residual Aggregation for Ultra High-Resolution Image Inpainting
作者 | Zili Yi, Qiang Tang, Shekoofeh Azizi, Daesik Jang, Zhan Xu
单位 | 华为技术有限公司(加拿大)
代码 | https://github.com/Ascend-Huawei/Ascend-Canada/tree/master/Models/Research_HiFIll_Model
论文地址|https://arxiv.org/abs/2005.09704
备注 | CVPR 2020 Oral
图像修复
主动填充图像中缺失局部
利用
- 调整指标地位
- 移除不想要的元素
- 修复损坏的图像
以后的办法
通过复制来填充
- 从缺失局部左近“借”像素来进行填充
- e.g., PatchMatch, diffusion-based
通过建模来填充
- 数据驱动的形式来学习缺失的像素
- e.g., PixelRNN,FCN
联合下面两种
- e.g., DeepFill, Patch-Swap
- 这篇文章的办法
以后基于学习的办法的有余
不可能去解决高分辨率图像
- 训练艰难
- GPU/NPU 内存的限度
- 短少高分辨率的训练数据集
论文办法
提出了一种上下文残差聚合(CRA)机制,该机制能够通过对上下文补丁中的残差进行加权聚合来生成失落内容的高频残差,因而网络的训练仅须要低分辨率即可
因为神经网络的卷积层仅须要在低分辨率的输出和输入上进行操作,因而升高了内存和计算能力的老本
此外,还加重了对高分辨率训练数据集的需要
通过 3 阶段的 pipeline 实现高分辨率图像的修复
- 由生成器(Generator)失去低分辨率的修补好的图像
- 通过残差聚合模块失去高频残差
- 合并高频残差和低分辨率修补后果失去高分辨率修补图像
网络结构
生成器(Generator)
两阶段的 coarse-to-fine 网络
coarse network 输出下采样到 256×256 的带 mask 图像,会产生粗略的缺失内容
fine network 通过 Attention Computing Module (ACM) 和Attention Transfer Module (ATM)失去缺失局部内外的关系得分,输入 512×512 的修复后果
试验
这篇论文的办法在图片分辨率大于 1K 的状况下修复效率和品质达到了最好
应用预训练好模型的测试后果
后果在缺失局部很大,且上下文环境简单的状况下,成果看起来并没有很好
在背景繁多的风光照中成果很不错
总结
- 提出了一种新鲜的上下文残留聚合技术,可对超高分辨率图像进行更高效和高质量的修复
- 把大图下采样到 512×512,在分辨率为 512×512 的小图像上进行图像修复,而后在高分辨率图像上进行推理失去修复成果良好的大图
- 与其余数据驱动办法不同,分辨率和孔尺寸的减少不会升高修补品质,也不会显着减少咱们框架中的解决工夫
- 到目前为止,是惟一可能在超高分辨率图像 (4K 至 8K) 上进行端到端修复的基于学习的技术
正文完