关于文本编辑器:别忘记我通过局部全局内容建模进行文本擦除方法

本文简要介绍了发表于ECCV 2022的论文“Don’t Forget Me: Accurate Background Recovery for Text Removal via Modeling Local-Global Context”的相干工作。该论文针对文本擦除中存在的简单背景修复的问题，提出了CTRNet，它利用部分和全局的语义建模晋升模型的背景还原能力，它设计了Low-level Contextual Guidance（LCG）和High-level Contextual Guidance（HCG）去开掘不同的语义表征，而后通过Local-Global Content Modeling（LGCM）进行部分与全局的特色建模，从而晋升文本擦除的能力。

一、钻研背景

文本擦除在近几年失去了越来越多的关注，这项技术在隐衷爱护、视觉信息翻译和图片内容编辑等方面都有着很重要的作用；而且在教育、办公畛域，文本擦除能够用于文档还原。因而，文字擦除不仅仅是给天然场景中的文字打上马赛克这样简略，而是要思考在擦掉文字的同时放弃文本区域背景的原特色，这就为这个工作带来了挑战。目前已有的工作如EraseNet[1]，PERT[2]， MTRNet++[3]等都是间接通过image-to-image的形式，它们对简单文本背景的复原成果并不是十分好，前景与背景常常存在显著的差别。本文受到Image Inainting畛域相干工作4的启发，提出了一个通过开掘不同语义表征去指引文本擦除的模型CTRNet，它设计了两种不同的语义表征，并通过部分-全局的特色建模晋升了模型的性能。

二、办法介绍

本文提出了一个全新的两阶段文本擦除网络CTRNet，它设计了两种不同的语义表征作为擦除指引，其中文本图像的Structure作为Low-level Contextual Guidance，而深层语义特色作为High-level Contextual Guidance；失去两种表征后，再通过Local- Global Content Modeling（LGCM）进行部分与全局的特色建模，最终再通过解码器失去最终的擦除后果。CTRNet的流程图如图1所示。

图1 CTRNet整体构造流程图

图2 数据示意图

2.1 文本感知分支与Soft Mask

CTRNet是一个两阶段的模型，即先进行文本检测失去文本地位，而后再依据检测后果对图片中各个文本进行擦除。该模型应用的是PAN [6]进行文本检测，在实现过程中，PAN会和整个擦除网络一起进行优化。此外，思考到惯例的0-1 Mask（Hard Mask）会在前景与背景的边界有显著的不间断问题，咱们提出在训练和前向的过程中用Soft Mask代替本来的Hard Mask。示意图如图2（b），（c）所示。

2.2 Low-level Contextual Guidance（LCG）

图3

2.3 High-level Contextual Guidance

除了Low-level的构造语义先验外，咱们还退出了HCG。在图像翻译以及图像修复的工作中，Perceptual/Style Loss验证了高层语义监督的有效性，因而咱们认为这些语义能够作为额定的先验间接用于特色的解码与最终后果的生成，于是便在CTRNet中联合了一个HCG模块去学习并利用高层的语义特色。

2.4 Local-global Content Modeling (LGCM)

当模型进行文本擦除并合成相应背景的时候，除了参考自身的文本区域内容外，还须要利用区域四周以及整图各局部的信息作为参考。联合CNN提取部分特色的能力以及Transformer的全局建模能力，本文设计了LGCM模块，构造如图3（b）所示。其中CNN block进行下采样，而后Transformer-Encoder则是捕捉全局像素之间的长距离关联，最初再通过上采样失去最终建模后的特色。此外LGCM模块还通过SPADE操作（图1中的Incor）联合了HCG失去的高层语义特色作为先验。如图1所示，LGCM是一个迭代式的构造，CTRNet一共级联了8个LGCM模块。最终失去的特色用于解码失去最初的文本擦除后果。

2.5 损失函数

Perceptual/Style Loss

Adversarial Loss

三、试验

试验次要是在SCUT-EnsText以及SCUT-Syn两个公开数据集上进行。此外本文还采集了一个In-house的试卷数据集进行试验验证CTRNet的泛化性。A．对于各模块的融化试验后果如表1所示，可视化对比方图4所示表1

图4B．与之前SOTA办法的比照试验后果如表2与图5所示—SCUT-EnsText表2

图5C. 与之前SOTA办法的比照试验后果如表3与图6所示—SCUT-Syn表3

图6D. 此外，还进行了与一些Image Inpainting办法的比照，后果如表4和图7所示表4

图7E．还在in-house手写试卷数据集上验证了CTRNet的有效性，如图8所示。

图8

四、总结与探讨

本文针对文本擦除中简单背景的复原问题提出了CTRNet，通过设计了两种不同模式的监督使得模型能学习到不同的语义表征，而后通过一个LGCM模块进行部分全局的特色建模并无效联合学习到的语义表征，以此在解码的时候能同时利用文本区域和整图其余区域的信息并复原更加天然、正当的文本背景。在各个数据集上的试验也验证了该模型的有效性。

五、相干资源

` 论文地址：https://link.springer.com/cha...
` 代码地址：https://github.com/lcy0604/CT...

六、参考文献

[1] Liu, Chongyu, et al. "EraseNet: End-to-end text removal in the wild." IEEE Transactions on Image Processing 29 (2020): 8760-8775.
[2] Wang, Yuxin, et al. "PERT: A Progressively Region-based Network for Scene Text Removal."arXiv preprint arXiv:2106.13029 (2021).
[3] Tursun, Osman, et al. "MTRNet++: One-stage mask-based scene text eraser."Computer Vision and Image Understanding 201 (2020): 103066.[4] Liu, Hongyu, et al. "Rethinking image inpainting via a mutual encoder-decoder with feature equalizations."European Conference on Computer Vision. Springer, Cham, 2020.
[5] Ren, Yurui, et al. "Structureflow: Image inpainting via structure-aware appearance flow."Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019.
[6] Wang, Wenhai, et al. "Efficient and accurate arbitrary-shaped text detection with pixel aggregation network." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019.
[7] Xu, Li, et al. "Structure extraction from texture via relative total variation."ACM transactions on graphics (TOG) 31.6 (2012): 1-10.
[8] Zhang, Wendong, et al. "Context-aware image inpainting with learned semantic priors."Proceedings of the International Joint Conference on Artificial Intelligence, 2021.

原文作者: Chongyu Liu, Lianwen Jin, Yuliang Liu, Canjie Luo, Bangdong Chen, Fengjun Guo, and Kai Ding