摘要:本文介绍几篇对于天然场景下文字擦除的论文工作。
给定一幅天然场景图像,只将图像中文字区域抹去而不改变其余区域像素值的办法称为文字擦除算法。该办法在隐衷爱护,身份信息篡改,数据增广等畛域有着宽泛的利用和钻研前景。
受传统生成反抗网络(GAN)算法的启发,基于深度学习的文字擦除算法都采纳了相似的生成器 + 判断器的构造,其损失函数为:
- 整个式子由两项形成。x 示意实在图片,z 示意输出 G 网络的噪声,而 G(z)示意 G 网络生成的图片。
- D(x)示意 D 网络判断实在图片是否实在的概率(因为 x 就是实在的,所以对于 D 来说,这个值越靠近 1 越好)。而 D(G(z))是 D 网络判断 G 生成的图片的是否实在的概率。
- G 的目标:下面提到过,D(G(z))是 D 网络判断 G 生成的图片是否实在的概率,G 应该心愿本人生成的图片“越靠近实在越好”。也就是说,G 心愿 D(G(z))尽可能的大,这时 V(D, G)会变小。因而咱们看到式子的最后面的记号是 min_G。
- D 的目标:D 的能力越强,D(x)应该越大,D(G(z))应该越小。这时 V(D,G)会变大。因而式子对于 D 来说是求最大(max_D)。
文字擦除能够分为两个子工作:1)文字区域定位。2)文字内容擦除。Ensnet [1] 提出了一种端到端的文字擦除算法,该办法将两个子工作合并,并让一个网络进行端到端的文字擦除(图 1 所示)。最初通过判断器和多种损失函数领导生成器的学习。
图 1. Ensnet 算法构造
为了让网络可能更好地感知文字内容的地位信息,Erasenet [2]进一步引入了一个 mask 分支进行学习(图 2),同时提出了一个新的实在文字擦除数据集,为文字擦除钻研畛域提供了一个更好的比照基准(图 3)。
图 2. Erasenet 网络
图 3. 实在场景的文字擦除数据集
为了将两个子工作进行更好的学习,从而实现更精确的文字擦除后果,MTRNet[3]在输出引入文字宰割后果,让网络可能感知文字区域的地位信息,从而升高工作难度,实现更精确的擦除后果。Bian 等人 [5] 通过一种级联的构造,实现对具体的字形感知。然而因为须要提前晓得文字区域的精确地位信息,所以这些办法具备肯定的局限性。MTRNet++[4]在 STRNet 根底上进行了改良(图 4),通过引入一个微调子网络升高了整体网络对输出地位信息的依赖性,从而实现更鲁棒的文字擦除算法。
图 4. MTRNet++ 网络
总结与思考
能够看到,现阶段深度学习的文字检测办法都是基于 GAN 网络框架的,那么,是否有别的办法可能实现 GAN 雷同的成果?区别于传统大面积 pixel-to-pixel 的工作,文字擦除大多只波及小区域的像素批改,笔者认为 attention 在将来能够成为一个新的解决思路。
参考文献
[1] Zhang, Shuaitao, et al. “Ensnet: Ensconce text in the wild.” _Proceedings of the AAAI Conference on Artificial Intelligence_. Vol. 33. No. 01. 2019.
[2] Liu, Chongyu, et al. “EraseNet: End-to-End Text Removal in the Wild.” IEEE Transactions on Image Processing 29 (2020): 8760-8775.
[3] Tursun, Osman, et al. “Mtrnet: A generic scene text eraser.” 2019 International Conference on Document Analysis and Recognition (ICDAR). IEEE, 2019.
[4] Tursun, Osman, et al. “MTRNet++: One-stage mask-based scene text eraser.” Computer Vision and Image Understanding 201 (2020): 103066.
[5] Bian, Xuewei, et al. “Scene text removal via cascaded text stroke detection and erasing.” arXiv preprint arXiv:2011.09768 (2020).
本文分享自华为云社区《技术综述九:天然场景图像的文字擦除算法介绍》,原文作者:我想静静。
点击关注,第一工夫理解华为云陈腐技术~