关于文本处理:文本检测与识别白皮书-32第二节场景文本识别方法

61次阅读

共计 3361 个字符,预计需要花费 9 分钟才能阅读完成。

3.2.2.1 基于 CTC 的无需宰割的场景文本识别方法

基于时序连贯序列 (CTC) 的天然场景文本辨认算法。

时序连贯序列 (CTC) 算法晚期由 Graves 等人 (2016) 提出,用以训练循环神经网络 (Cho 等,2014;Hochreiter 和 Schmidhuber,1997),并间接标记未宰割的特色序列。CTC 算法在多个畛域均证实了它的优异性能,例如语音辨认(Graves 等,2013;Graves 和 Jaitly,2014) 和联机手写文本辨认 (Graves 等,2009;Graves,2012)。对于天然场景文本辨认言,CTC 算法通常作为转录层,通过计算条件概率将深度卷积神经网络或循环神经网络提取的特色序列间接解码为指标字符串序列。
得益于 CTC 算法在语音解决畛域的胜利利用,一些钻研人员 (Su 和 Lu,2014;He 等,2016b;Shi 等,2017b) 率先将其利用于天然场景文本辨认算法中以改善解码性能。例如,Shi 等人 (2017b) 将天然场景文本辨认工作视为序列辨认工作,并提出了一个可端到端训练的网络模 CRNN(convolutional recurrent neural network),其构造如图 所示。该办法不仅无需逐字符宰割的简约操作,而且充沛联合了深度卷积神经网络和循环神经网络的长处,无效改善了天然场景文本辨认算法的性能。

尔后,大量基于 CTC 算法解码的天然场景文本辨认算法 (Liu 等,2016b; Su 和 Lu,2017; Yin 等,2017; Wang 和 Hu,2017;Gao 等,2018,2019;Qi 等,2019) 展现出了优良的辨认性能。然而,一些钻研人员 (Liu 等,2018a) 认为 CTC 算法趋向于产生高度尖利和适度自信的预测散布,这是过拟合的体现。为了解决上述难点,Liu 等人 (2018a) 引入最大条件熵的正则化项加强其泛化性,并激励 CTC 算法摸索更多可行的无效门路。Feng 等人 (2019b) 将 CTC 算法与焦点损失函数相交融,以解决样本类别极度不平衡的天然场景文本辨认问题。Hu 等人 (2020) 利用图卷积神经网络改善基于 CTC 算法解码的天然场景文本辨认算法的辨认精度和鲁棒性。

尽管 CTC 算法具备很好的解码性能,并进一步推动了天然场景文本辨认畛域的倒退,然而它也面临着一些局限性:
(1)CTC 算法的底层实践根底绝对简单,间接利用 CTC 算法解码将会造成很大的计算耗费;
(2)CTC 算法容易产生高度尖利和适度自信的预测散布 (Miao 等,2015),当呈现反复字符时,解码性能降落;
(3) 因为 CTC 算法本身构造和实现形式的限度,它很难利用于 2 维的预测问题,例如不规则的天然场景文本辨认问题(不规则的天然场景文本辨认是指待辨认的文本在天然场景文本图像中的散布出现非凡的空间结构而非程度方向)。

为了解决 CTC 算法无奈利用于不规则的天然场景文本辨认工作,Wan 等人 (2019) 通过沿着高度方向减少维度,扩大原始的 CTC 算法。只管该办法在肯定水平上改善了辨认性能,然而并没有从根本上解决 CTC 算法利用于二维预测工作的难点。因而,基于 CTC 的天然场景文本辨认算法依然存在应用场景的限度。

将 CTC 算法利用于解决 2 维预测问题是将来畛域钻研中一个有后劲的钻研方向。

3.2.2.2 基于注意力机制的无需宰割的场景文本识别方法

基于注意力机制的天然场景文本辨认算法。

注意力机制由 Bahdanau 等人 (2015) 提出,晚期用于改善机器翻译算法的性能。注意力机制以人类的注意力特点为原型,即当人们在察看事物时,眼光往往聚焦到感兴趣的事物上而疏忽无用信息的烦扰。同样地,注意力机制能够主动地调配不同时刻的权重,达到“留神”的目标。

在机器翻译畛域,注意力机制的特点是能够主动搜查并高亮与以后预测词相干的句子成分,辅助生成预测词。近年来,注意力机制在多个畛域都获得了优异的性能,例如图像形容 (He 等,2019)、文本辨认(Shi 等,2019) 和遥感图像分类(Wang 等,2019d) 等。对于天然场景文本辨认而言,注意力机制经常与循环神经网络联合应用,作为转录层,生成指标字符串序列。

受启发于机器翻译畛域注意力机制的胜利利用,大量基于注意力机制解码的天然场景文本辨认算法 (Lee 和 Osindero,2016;Shi 等,2016,2019;Yang 等,2017,2019;Cheng 等,2018;Luo 等,2019;Li 等,2019; Zhan 等,2019; Zhang 等,2019b; Baek 等,2019a;Zhan 和 Lu,2019) 失去宽泛钻研。

相干算法大抵包含:
(1)利用注意力机制解决二维的预测问题。 对于不规则的天然场景文本辨认而言,文本字符的不规则排布显著减少了辨认的难度。注意力机制可能通过高亮字符所在位置的特色,无效补救不规则文本和程度平直文本之间的特色差别。因而,一些钻研人员 (Yang 等,2017;Li 等,2019;Huang 等,2020) 提出了 2 维的注意力机制,用于改善不规则天然场景文本辨认问题。

(2)改善隐式语言模型的建模过程。 一些钻研认为注意力机制解码算法中的 glimpse 向量不足以表征待预测字符的特色。因而,Chen 等人 (2020) 设计了自适应的门控机制,通过引入高阶统计语言模型作为监督信息,改善注意力机制外部字符级隐式语言模型的建模过程。

Wang 等人 (2018a) 通过退出历史预测字符的特色,构建了记忆力加强的注意力机制,改善天然场景文本辨认算法的辨认性能。Shi 等人 (2019) 认为惯例的基于注意力机制的预测转录模块只能捕捉繁多方向的语义信息,因而提出了 ASTER(attentional scene text recognizer with flexible rectification),它应用了双向的注意力解码器以捕捉两个方向的互补语义特色,其网络及双向的注意力解码器构造如图 11 所示。

(3)并行处理优化、升高计算复杂度。 尽管基于循环神经网络构造的注意力机制可能捕捉长期的上下文信息,然而计算量大、耗时较多。因而,一些钻研 (Zhu 等,2019;Wang 等,2019b;Sheng 等,2019;Yu 等,2020) 利用注意力机制的变体,即 Transformer(Vaswani,2017),来改善注意力机制的并行处理,升高基于注意力机制解码的天然场景文本辨认算法的计算复杂度。

(4)解决注意力漂移问题 。注意力漂移问题是指注意力机制不能精确地定位到与以后解码地位绝对应的文本图像特色序列。一些钻研(Cheng 等,2017;Yue 等,2020) 减少额定的监督信息改善注意力漂移景象。Cheng 等人 (2017) 提出了专一注意力网络。该办法通过在注意力机制中引入单字符地位监督,疏导识别器学习待解码字符与对应的文本图像特色序列的对齐关系。Yue 等人 (2020) 减少了地位强化分支,将语义信息与地位信息特色交融解码。该办法不仅改善了注意力漂移问题,而且改善了辨认模型对于非语义文本的泛化性。

局部钻研人员 (Wang 等,2019c;Huang 等,2020;Zhu 等,2019) 通过级联注意力模块的形式缓解注意力漂移景象。特地地,Wang 等人(2020b) 认为注意力漂移景象源于循环神经网络的递归结构。因而,他们将注意力机制的对齐操作从参照历史解码信息过程中解耦进去。该办法无效缓解了长文本的注意力漂移问题,进一步改善了天然场景文本辨认性能。

基于注意力机制的天然场景文本辨认算法曾经逐步成为畛域的支流解码算法,并展示了优于其余传统办法的优越性能。相比于 CTC 算法,注意力机制不仅进一步晋升了天然场景文本辨认算法的辨认性能,而且能够很容易地扩大到 2 维的预测问题上,例如不规则天然场景文本辨认工作。

然而,注意力机制也面临着一些局限性:
(1)注意力机制须要计算文本图像特色与预测字符之间的对齐关系,这会引入额定的存储耗费。
(2)对于较长的输出文本图像而言,注意力机制很难精确地预测出指标字符串序列。因为注意力机制存在漂移景象,一旦呈现对齐谬误,后续的文本很难正确辨认。
(3)畛域中基于注意力机制解码的天然场景文本辨认算法次要集中于字符类别数量较少的语种,例如英文和法文。对于领有类别字符数量的语种,例如中文,较少取得畛域内钻研人员的关注。

正文完
 0