本文简要介绍了发表于 ECCV 2022 的论文“Don’t Forget Me: Accurate Background Recovery for Text Removal via Modeling Local-Global Context”的相干工作。该论文针对文本擦除中存在的简单背景修复的问题,提出了 CTRNet,它利用部分和全局的语义建模晋升模型的背景还原能力,它设计了 Low-level Contextual Guidance(LCG)和 High-level Contextual Guidance(HCG)去开掘不同的语义表征,而后通过 Local-Global Content Modeling(LGCM)进行部分与全局的特色建模,从而晋升文本擦除的能力。
一、钻研背景
文本擦除在近几年失去了越来越多的关注,这项技术在隐衷爱护、视觉信息翻译和图片内容编辑等方面都有着很重要的作用;而且在教育、办公畛域,文本擦除能够用于文档还原。因而,文字擦除不仅仅是给天然场景中的文字打上马赛克这样简略,而是要思考在擦掉文字的同时放弃文本区域背景的原特色,这就为这个工作带来了挑战。目前已有的工作如 EraseNet[1],PERT[2],MTRNet++[3] 等都是间接通过 image-to-image 的形式,它们对简单文本背景的复原成果并不是十分好,前景与背景常常存在显著的差别。本文受到 Image Inainting 畛域相干工作 4 的启发,提出了一个通过开掘不同语义表征去指引文本擦除的模型 CTRNet,它设计了两种不同的语义表征,并通过部分 - 全局的特色建模晋升了模型的性能。
二、办法介绍
本文提出了一个全新的两阶段文本擦除网络 CTRNet,它设计了两种不同的语义表征作为擦除指引,其中文本图像的 Structure 作为 Low-level Contextual Guidance,而深层语义特色作为 High-level Contextual Guidance;失去两种表征后,再通过 Local- Global Content Modeling(LGCM)进行部分与全局的特色建模,最终再通过解码器失去最终的擦除后果。CTRNet 的流程图如图 1 所示。
图 1 CTRNet 整体构造流程图
图 2 数据示意图
2.1 文本感知分支与 Soft Mask
CTRNet 是一个两阶段的模型,即先进行文本检测失去文本地位,而后再依据检测后果对图片中各个文本进行擦除。该模型应用的是 PAN [6] 进行文本检测,在实现过程中,PAN 会和整个擦除网络一起进行优化。此外,思考到惯例的 0 -1 Mask(Hard Mask)会在前景与背景的边界有显著的不间断问题,咱们提出在训练和前向的过程中用 Soft Mask 代替本来的 Hard Mask。示意图如图 2(b),(c)所示。
2.2 Low-level Contextual Guidance(LCG)
图 3
2.3 High-level Contextual Guidance
除了 Low-level 的构造语义先验外,咱们还退出了 HCG。在图像翻译以及图像修复的工作中,Perceptual/Style Loss 验证了高层语义监督的有效性,因而咱们认为这些语义能够作为额定的先验间接用于特色的解码与最终后果的生成,于是便在 CTRNet 中联合了一个 HCG 模块去学习并利用高层的语义特色。
2.4 Local-global Content Modeling (LGCM)
当模型进行文本擦除并合成相应背景的时候,除了参考自身的文本区域内容外,还须要利用区域四周以及整图各局部的信息作为参考。联合 CNN 提取部分特色的能力以及 Transformer 的全局建模能力,本文设计了 LGCM 模块,构造如图 3(b)所示。其中 CNN block 进行下采样,而后 Transformer-Encoder 则是捕捉全局像素之间的长距离关联,最初再通过上采样失去最终建模后的特色。此外 LGCM 模块还通过 SPADE 操作(图 1 中的 Incor)联合了 HCG 失去的高层语义特色作为先验。如图 1 所示,LGCM 是一个迭代式的构造,CTRNet 一共级联了 8 个 LGCM 模块。最终失去的特色用于解码失去最初的文本擦除后果。
2.5 损失函数
Perceptual/Style Loss
Adversarial Loss
三、试验
试验次要是在 SCUT-EnsText 以及 SCUT-Syn 两个公开数据集上进行。此外本文还采集了一个 In-house 的试卷数据集进行试验验证 CTRNet 的泛化性。A. 对于各模块的融化试验后果如表 1 所示,可视化对比方图 4 所示表 1
图 4B. 与之前 SOTA 办法的比照试验后果如表 2 与图 5 所示—SCUT-EnsText 表 2
图 5C. 与之前 SOTA 办法的比照试验后果如表 3 与图 6 所示—SCUT-Syn 表 3
图 6D. 此外,还进行了与一些 Image Inpainting 办法的比照,后果如表 4 和图 7 所示表 4
图 7E.还在 in-house 手写试卷数据集上验证了 CTRNet 的有效性,如图 8 所示。
图 8
四、总结与探讨
本文针对文本擦除中简单背景的复原问题提出了 CTRNet,通过设计了两种不同模式的监督使得模型能学习到不同的语义表征,而后通过一个 LGCM 模块进行部分全局的特色建模并无效联合学习到的语义表征,以此在解码的时候能同时利用文本区域和整图其余区域的信息并复原更加天然、正当的文本背景。在各个数据集上的试验也验证了该模型的有效性。
五、相干资源
` 论文地址:https://link.springer.com/cha…
` 代码地址:https://github.com/lcy0604/CT…
六、参考文献
[1] Liu, Chongyu, et al. “EraseNet: End-to-end text removal in the wild.” IEEE Transactions on Image Processing 29 (2020): 8760-8775.
[2] Wang, Yuxin, et al. “PERT: A Progressively Region-based Network for Scene Text Removal.”arXiv preprint arXiv:2106.13029 (2021).
[3] Tursun, Osman, et al. “MTRNet++: One-stage mask-based scene text eraser.”Computer Vision and Image Understanding 201 (2020): 103066.[4] Liu, Hongyu, et al. “Rethinking image inpainting via a mutual encoder-decoder with feature equalizations.”European Conference on Computer Vision. Springer, Cham, 2020.
[5] Ren, Yurui, et al. “Structureflow: Image inpainting via structure-aware appearance flow.”Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019.
[6] Wang, Wenhai, et al. “Efficient and accurate arbitrary-shaped text detection with pixel aggregation network.” Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019.
[7] Xu, Li, et al. “Structure extraction from texture via relative total variation.”ACM transactions on graphics (TOG) 31.6 (2012): 1-10.
[8] Zhang, Wendong, et al. “Context-aware image inpainting with learned semantic priors.”Proceedings of the International Joint Conference on Artificial Intelligence, 2021.
原文作者 : Chongyu Liu, Lianwen Jin, Yuliang Liu, Canjie Luo, Bangdong Chen, Fengjun Guo, and Kai Ding