关于人工智能:一文带你了解两种Transformer文字识别方法

7次阅读

共计 2467 个字符,预计需要花费 7 分钟才能阅读完成。

摘要 :受 Transformer 模型的启发,目前一些学者将该构造利用到文本行辨认中,以代替 RNN,获得了良好的成果,如在 HGA-STR 和 SRN。

以后的文本行识别器为领有更强的序列语义能力,模型多采纳 CNN + RNN 的构造,如目前应用非常宽泛的两个识别器 CRNN 和 Aster,这些模型获得了十分好的成果。然而因为 RNN 只能采纳串行计算,在目前大量采纳并行计算设施的前提下,RNN 面临着显著的速度瓶颈。若弃用 RNN 只应用 CNN,性能往往不尽如人意。在 NLP 畛域,Ashish Vaswan[1] 等人提出的 Transformer 模型在语言了解相干工作上非常胜利,并优于 CNN 和 RNN 成果,展现出 Transformer 弱小的序列建模能力。Transformer 模型基于 Attention 实现,该操作可并行实现,因而该模型具备良好的并行性。

受 Transformer 模型的启发,目前一些学者将该构造利用到文本行辨认中,以代替 RNN,获得了良好的成果,如在 HGA-STR[2] 和 SRN[3]。上面对两种办法进行介绍,总体上,HGA-STR 更靠近原有的 Transformer 的构造,应用了和 Transformer 相似的解码构造,而 SRN 则是应用了 Transformer unit 进行特征提取,并采纳该文作者提出的并行解码器,整个模型领有更好的可并行性。为较好了解上面两篇文章,请参阅相干材料以理解 Transformer 的原理。

HGA-STR 简介

对于不规则文本,文本散布在二维空间上,将其转换成一维有肯定难度,同时基于 RNN 的编码解码器无奈做到并行,本文间接将 2D 的特色输出到 attention-based 1D 序列解码器,解码器采纳 Transformer 中的解码器同样的构造。同时,在编码器局部,提取一个全局语义向量,与解码器的输出 embedding 向量合并,为解码器提供全局语义信息。该模型构造如图 1 所示。

图 1. 模型的根本构造

编码器介绍 :该模型应用 CNN 进行特征提取,并放弃输入的特色为二维。并应用池化操作失去一维向量,作为全局信息示意。

解码器介绍 :编码器次要组件有:masked self-attention 用来建模预测后果的依赖性;2D-attention 用来连贯编码器和解码器;以及一个前馈层。具体实现和 Transformer 文中的构造雷同。同时为了更好的性能作者应用两个方向进行解码,构造如图 2 所示。

图 2. 该办法应用双向解码器

该办法在多个英文基准数据集获得了较好的后果,具体后果可参见论文。在速度上作者和两种基于 attention 的办法进行比照有肯定的劣势,如表 1 所示。

表 1. 速度比照

在作者进行的比照试验中,一个比拟有意思的景象是,在编码器外面增加 Self-attention 模块并不能晋升模型性能,在解码器中增加才会对后果有晋升,如表 2 所示。这表明本来的 Transformer 构造间接利用到文字辨认工作上是不可行的,须要做相应的调整。

表 2. Self-attention 性能比照

SRN 简介

与上一办法不同的是,SRN 采纳齐全不同的解码形式,并引入全局语义推理模块。就获取语义信息的形式而言,支流的 Attention-based 办法基于 RNN 来实现,是一种采纳单向串行形式进行建模的办法,如图 3.(a) 所示。这种形式有显著的有余:

1)仅仅感知了历史时刻的语义信息,而无奈获取将来时刻的语义信息;

2)如果较早时刻解码出的谬误字符,会为余下时刻的解码传递谬误的语义信息,导致误差积攒效应;

3)串行的解码模式是绝对低效的,特地是在模型预测的环节。

图 3. 两种不同的传递语义信息的办法

如图 4 所示,SRN 由四局部组成:根底网络 Backbone、并行的视觉特诊提取模块 (PVAM)、全局语义推理模块 (GSRM) 和视觉语义交融的解码器 (VSFD)。给定一张输出的文本图像,基于 ResNet50 + Transformer unit 的 Backbone 从中提取出视觉 2D feature map V;之后 PVAM 会针对每个指标字符获取其相应的视觉特色 G;GSRM 会基于视觉特色 G 获取全局语义信息,并转化为每个指标字符的语义特色 S;最初 VSFD 交融对齐的视觉特色和语义特色,预测出相应字符。在训练阶段和推断阶段,每个序列中各个字符之间是并行。

图 4. 办法的总体结构图

PVAM 模块介绍 :在 Backbone 输入了 2D 的视觉特色图之后,PVAM 会针对文本行中的每个字符,计算出相应 attention map, 通过将其与 feature map 按像素加权求和,可失去每个指标字符对应的的视觉特色。另外,PVAM 也用字符的浏览程序取代上一时刻隐变量来疏导计算以后时刻的 attention map,实现了并行提取视觉特色的目标。

GSRM 模块介绍 :GSRM 会基于全局语义信息进行推理。具体过程为,首先将视觉过程转换成语义特色,应用穿插熵损失进行监督,并对其概率分布取 argmax 失去初始的分类后果,同时通过分类后果获取每个字符的 embedding 向量,通过多层 Transformer unit 后,失去经语义推理模块修改的预测后果,同样应用穿插熵损失进行监督。

VSFD 模块介绍 :对 PVAM 输入的对齐的视觉特色和 GSRM 输入的全局语义特色进行交融,最初基于交融后的特色进行预测输入。

该办法在多个英文基准数据集上获得了 SOTA 的后果。对于中文长文本的辨认,SRN 绝对于其余识别方法也有显著劣势,如表 3 所示。

表 3. 中文数据集后果(TRW- L 为长文本)

速度上,得益于整个模型的并行设计,SRN 领有较小的推理时延,如表 4 所示。

表 4. 推理速度介绍

Reference

[1] https://arxiv.org/pdf/1706.03…

[2] https://arxiv.org/abs/1904.01375

[3] https://arxiv.org/pdf/2003.12…

本文分享自华为云社区《技术综述六:文字辨认中基于 Transformer 识别方法汇总简介》,原文作者:谷雨润一麦。

点击关注,第一工夫理解华为云陈腐技术~

正文完
 0