关于人工智能:一文带你了解两种Transformer文字识别方法

50次阅读

共计 2467 个字符，预计需要花费 7 分钟才能阅读完成。

摘要：受 Transformer 模型的启发，目前一些学者将该构造利用到文本行辨认中，以代替 RNN，获得了良好的成果，如在 HGA-STR 和 SRN。

以后的文本行识别器为领有更强的序列语义能力，模型多采纳 CNN + RNN 的构造，如目前应用非常宽泛的两个识别器 CRNN 和 Aster，这些模型获得了十分好的成果。然而因为 RNN 只能采纳串行计算，在目前大量采纳并行计算设施的前提下，RNN 面临着显著的速度瓶颈。若弃用 RNN 只应用 CNN，性能往往不尽如人意。在 NLP 畛域，Ashish Vaswan[1] 等人提出的 Transformer 模型在语言了解相干工作上非常胜利，并优于 CNN 和 RNN 成果，展现出 Transformer 弱小的序列建模能力。Transformer 模型基于 Attention 实现，该操作可并行实现，因而该模型具备良好的并行性。

受 Transformer 模型的启发，目前一些学者将该构造利用到文本行辨认中，以代替 RNN，获得了良好的成果，如在 HGA-STR[2] 和 SRN[3]。上面对两种办法进行介绍，总体上，HGA-STR 更靠近原有的 Transformer 的构造，应用了和 Transformer 相似的解码构造，而 SRN 则是应用了 Transformer unit 进行特征提取，并采纳该文作者提出的并行解码器，整个模型领有更好的可并行性。为较好了解上面两篇文章，请参阅相干材料以理解 Transformer 的原理。

对于不规则文本，文本散布在二维空间上，将其转换成一维有肯定难度，同时基于 RNN 的编码解码器无奈做到并行，本文间接将 2D 的特色输出到 attention-based 1D 序列解码器，解码器采纳 Transformer 中的解码器同样的构造。同时，在编码器局部，提取一个全局语义向量，与解码器的输出 embedding 向量合并，为解码器提供全局语义信息。该模型构造如图 1 所示。

图 1. 模型的根本构造

编码器介绍 ：该模型应用 CNN 进行特征提取，并放弃输入的特色为二维。并应用池化操作失去一维向量，作为全局信息示意。

解码器介绍 ：编码器次要组件有：masked self-attention 用来建模预测后果的依赖性；2D-attention 用来连贯编码器和解码器；以及一个前馈层。具体实现和 Transformer 文中的构造雷同。同时为了更好的性能作者应用两个方向进行解码，构造如图 2 所示。

图 2. 该办法应用双向解码器

该办法在多个英文基准数据集获得了较好的后果，具体后果可参见论文。在速度上作者和两种基于 attention 的办法进行比照有肯定的劣势，如表 1 所示。

表 1. 速度比照

在作者进行的比照试验中，一个比拟有意思的景象是，在编码器外面增加 Self-attention 模块并不能晋升模型性能，在解码器中增加才会对后果有晋升，如表 2 所示。这表明本来的 Transformer 构造间接利用到文字辨认工作上是不可行的，须要做相应的调整。

表 2. Self-attention 性能比照

与上一办法不同的是，SRN 采纳齐全不同的解码形式，并引入全局语义推理模块。就获取语义信息的形式而言，支流的 Attention-based 办法基于 RNN 来实现，是一种采纳单向串行形式进行建模的办法，如图 3.(a) 所示。这种形式有显著的有余：

1）仅仅感知了历史时刻的语义信息，而无奈获取将来时刻的语义信息；

2）如果较早时刻解码出的谬误字符，会为余下时刻的解码传递谬误的语义信息，导致误差积攒效应；

3）串行的解码模式是绝对低效的，特地是在模型预测的环节。

图 3. 两种不同的传递语义信息的办法

如图 4 所示，SRN 由四局部组成：根底网络 Backbone、并行的视觉特诊提取模块 (PVAM)、全局语义推理模块 (GSRM) 和视觉语义交融的解码器 (VSFD)。给定一张输出的文本图像，基于 ResNet50 + Transformer unit 的 Backbone 从中提取出视觉 2D feature map V；之后 PVAM 会针对每个指标字符获取其相应的视觉特色 G；GSRM 会基于视觉特色 G 获取全局语义信息，并转化为每个指标字符的语义特色 S；最初 VSFD 交融对齐的视觉特色和语义特色，预测出相应字符。在训练阶段和推断阶段，每个序列中各个字符之间是并行。

图 4. 办法的总体结构图

PVAM 模块介绍 ：在 Backbone 输入了 2D 的视觉特色图之后,PVAM 会针对文本行中的每个字符，计算出相应 attention map, 通过将其与 feature map 按像素加权求和，可失去每个指标字符对应的的视觉特色。另外，PVAM 也用字符的浏览程序取代上一时刻隐变量来疏导计算以后时刻的 attention map，实现了并行提取视觉特色的目标。

GSRM 模块介绍 ：GSRM 会基于全局语义信息进行推理。具体过程为，首先将视觉过程转换成语义特色，应用穿插熵损失进行监督，并对其概率分布取 argmax 失去初始的分类后果，同时通过分类后果获取每个字符的 embedding 向量，通过多层 Transformer unit 后，失去经语义推理模块修改的预测后果，同样应用穿插熵损失进行监督。

VSFD 模块介绍 ：对 PVAM 输入的对齐的视觉特色和 GSRM 输入的全局语义特色进行交融，最初基于交融后的特色进行预测输入。

该办法在多个英文基准数据集上获得了 SOTA 的后果。对于中文长文本的辨认，SRN 绝对于其余识别方法也有显著劣势，如表 3 所示。

表 3. 中文数据集后果（TRW- L 为长文本）

速度上，得益于整个模型的并行设计，SRN 领有较小的推理时延，如表 4 所示。

表 4. 推理速度介绍

Reference

[1] https://arxiv.org/pdf/1706.03…

[2] https://arxiv.org/abs/1904.01375

[3] https://arxiv.org/pdf/2003.12…

本文分享自华为云社区《技术综述六：文字辨认中基于 Transformer 识别方法汇总简介》，原文作者：谷雨润一麦。

点击关注，第一工夫理解华为云陈腐技术~

正文完

人工智能

发表至：人工智能

2020-11-27

0

关于人工智能:当翻译竟然变成了文本编辑

关于人工智能:苹果历时-13-年最终胜诉谷歌发布-Gemma-大模型华为首超苹果成中国平板市场第一丨-RTE-开发者日报-Vol149

关于人工智能:百度AI师资培训兰州站启动-社会科学家的第一节人工智能课来了

关于人工智能:知识中台驱动产业智能化升级

关于python:无网络环境使用flutter第三方库

关于人工智能:一文带你了解两种Transformer文字识别方法

HGA-STR 简介

SRN 简介

Just My Socks（注册教程内含优惠码）

关于人工智能:一文带你了解两种Transformer文字识别方法

HGA-STR 简介

SRN 简介

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）