关于视觉设计:带你读论文丨基于视觉匹配的自适应文本识别
摘要:ECCV2020 通过视觉匹配的办法来做文本辨认,解决文档辨认中的文本辨认多样性和泛化性问题本文分享自华为云社区《论文解读二十三:基于视觉匹配的自适应文本辨认》,作者: wooheng。 引言本文工作指标是文本辨认的泛化和灵活性,之前的文本识别方法[1,2,3,4]在很多的繁多场景下都获得了很好的成果,然而一旦推广到另一个蕴含新字体和新语言的场景,要么应用大量数据从新训练,或者针对每个新样本进行微调。 本文基于一个关键点:文本是无限数量离散实体的反复序列,反复的实体是文本字符串中的字符和字形,即文本行图像中字符/符号的视觉示意。假如能够拜访字形示例(即字符的裁剪图像),并要求视觉编码器在给定的文本行图像中定位这些反复的字形。视觉编码器的输入是一个类似度图,它将文本行中每个空间地位与字母表中每个字形的视觉类似度编码,如图1所示。解码器摄取该类似度图以推断最可能的字符串。图2总结了所提出的办法。 图1 用于文本辨认的视觉匹配。以后的文本辨认模型从预约义(固定)字母表中学习特定于字符形态(字形)的判断特色。咱们训练咱们的模型来建设给定字符字形(顶部)和要辨认的文本行图像(左侧)之间的视觉相似性。这使得模型高度适应看不见的字形、新字母表(不同的语言),并且无需进一步训练即可扩大到新的字符类,例如英语→希腊语。更亮的色彩对应于更高的视觉相似性。 图2 自适应视觉匹配的架构。本文将文本辨认问题转化为给定文本线图像中字形样本的视觉匹配问题。左图:体系结构图。视觉编码器 嵌入字形 g 和文本行 x ,并生成相似性映射S,该映射S对每个字形的相似性进行评分。而后,解决(潜在)不齐全视觉匹配中的模糊性,以产生加强的相似性映射S*。最初,应用M中蕴含的实在字形宽度,将相似性分数聚合到输入类概率P。右图:阐明字形宽度如何编码到模型中。字形宽度带(顶部)的高度与其相应字形示例的宽度雷同,其标量值是以像素为单位的字形宽度。字形宽度映射(底部)是一个二进制矩阵,字母表A中的每个字符都有一列;这些列通过将相应的行设置为非零值(=1)来批示字形线图像中字形的范畴。 2.模型构造本文的模型通过视觉匹配定位给定的文本行图像中的字形样本来辨认给定的文本行图像。它将文本行图像和蕴含一组样本的字母图像作为输出,并预测N个类上的概率序列作为输入,其中N等于字母图像中给出的样本数。对于推理,字形线图像是通过并排连贯参考字体的单个字符字形来组装的,而后能够读取该字体中的文本线。 该模型有两个次要局部:(1)视觉相似性编码器(第2.1节),它输入编码文本行图像中每个字形的相似性的相似性图,和(2)一个与字母无关的解码器(第2.2节),它接管这个相似性映射以推断最可能的字符串。在第2.3节中,咱们具体介绍了训练指标。图2给出了模型的扼要示意图。 2.1 视觉相似性编码器输出:所有指标字母的字形;要辨认的文本行图像 目标:失去指标字母的字形在要辨认的文本行图像中的地位 应用视觉编码器 对字形 g 和文本行 x 进行编码,并且生成类似图 S ,示意每一个字形和文本行的每一个地位的类似度。应用余弦间隔计算类似度。 编码器应用有两个残差块的 U-Net 实现,视觉类似度图由文本行和字形行图像沿编码特色宽度的所有地位之间的余弦间隔失去。 2.2 字母无关编码器字母无关解码器将相似性映射离散为沿文本行图像宽度的所有空间地位的样本中每个字形的概率。 一个简略的实现将预测在相似性映射中每个字形的范畴上聚合的相似性得分的argmax或总和。然而,这种策略并不能克服相似性中的模糊性,也不能产生平滑/统一的字符预测。因而分两个步骤进行:首先,相似性消歧义通过思考线图像中的字形宽度和地位,解决字母表中字形的歧义,产生加强的相似性映射(S),其次,类聚合器通过聚合S中每个字形的空间范畴内的分数来计算字形概率。 打消相似性歧义现实的相似性映射具备高相似性的方形区域。这是因为字形和文本行图像中字符的宽度将雷同。因而将字形宽度与部分的x、y坐标一起应用小型MLP编码到类似度图中。x、y坐标的两个通道(标准化为[0,1])和字形宽度重叠起来输出到MLP中。为了消歧义,本文应用一个自我留神模块并输入与S雷同大小的加强相似性的映射S*。 类聚合器将类似图S*映射到每个字形对应的示例字形的概率S∗→P,通过乘矩阵M实现 P = MS∗,其中 M = [ m1, m2 , . . . , m∣A∣]T,mi ∈ {0, 1}=[0,...,0,1,...,1,0,...,0],其中,非零值对应于字形图像中第i个字形的宽度。 推理阶段在推理阶段应用贪心算法解码。 3.训练损失函数应用CTC损失监督字形示例P,以将预测与输入标签对齐。还在每个地位应用辅助穿插熵损失(L sim)来监督视觉编码器S的相似性映射输入。应用实在字符边界框来确定每个字符的空间跨度。总体训练由以下两局部损失组成。 4.试验后果本文与最先进的文本辨认模型进行了比拟,而后推广到新的字体和语言。 图3 VS-1、VS-2:泛化到具备/不具备已知测试字形和减少训练字体数量的新字体。FontSynth测试集上的错误率(以%为单位;↓为更好)。Ours-cross代表穿插字体匹配,其中测试字形未知,训练字体被用作字形样本,当样本字体从训练集中随机抉择时显示mean和standard-dev,selected显示基于置信度主动抉择的最佳匹配示例的后果。R、B、L和I对应于FontSynth训练集中的Regular,Bold,Light,Italic;OS代表Omniglot-Seq数据集。 图4 VS-3:从合成数据到实在数据的推广。Google1000英文文档中仅在合成数据上训练模型的均匀错误率(%;↓更好)。LM代表6-gram语言模型。 5.论断本文提出一种文本识别方法,它能够推广到新鲜的字体视觉格调(字体、色彩、背景等),并且不与特定的字母大小/语言挂钩。它通过将经典文本辨认从新塑造为视觉匹配辨认来实现这一指标,本文曾经证实了匹配能够利用随机形态/字形进行训练。本文的模型可能是第一个one-shot序列辨认的模型,与传统的文本识别方法相比领有卓越的泛化能力,而不须要低廉的适配/微调。尽管该办法曾经被证实用于文本辨认,但它实用于其余序列辨认问题,如语音和动作辨认。 参考文献[1] Jeonghun Baek, Geewook Kim, Junyeop Lee, Sungrae Park, Dongyoon Han, Sangdoo Yun, Seong Joon Oh, and Hwalsuk Lee. What is wrong with scene text recognition model comparisons? dataset and model analysis. In Proc. ICCV, 2019. ...