关于文本处理:文本检测与识别白皮书-32第二节场景文本识别方法
3.2.2.1 基于CTC的无需宰割的场景文本识别方法基于时序连贯序列(CTC)的天然场景文本辨认算法。时序连贯序列(CTC)算法晚期由Graves等人(2016)提出,用以训练循环神经网络(Cho 等,2014;Hochreiter 和Schmidhuber,1997),并间接标记未宰割的特色序列。CTC 算法在多个畛域均证实了它的优异性能,例如语音辨认(Graves 等,2013;Graves 和Jaitly,2014)和联机手写文本辨认(Graves等,2009;Graves,2012)。对于天然场景文本辨认言,CTC 算法通常作为转录层,通过计算条件概率将深度卷积神经网络或循环神经网络提取的特色序列间接解码为指标字符串序列。 得益于CTC 算法在语音解决畛域的胜利利用,一些钻研人员(Su 和Lu,2014;He 等,2016b;Shi 等,2017b)率先将其利用于天然场景文本辨认算法中以改善解码性能。例如,Shi 等人(2017b)将天然场景文本辨认工作视为序列辨认工作,并提出了一个可端到端训练的网络模CRNN(convolutional recurrent neural network),其构造如图 所示。该办法不仅无需逐字符宰割的简约操作,而且充沛联合了深度卷积神经网络和循环神经网络的长处,无效改善了天然场景文本辨认算法的性能。 尔后,大量基于CTC 算法解码的天然场景文本辨认算法(Liu等,2016b; Su 和Lu,2017; Yin 等,2017; Wang 和Hu,2017;Gao 等,2018,2019;Qi 等,2019)展现出了优良的辨认性能。然而,一些钻研人员(Liu 等,2018a)认为CTC 算法趋向于产生高度尖利和适度自信的预测散布,这是过拟合的体现。为了解决上述难点,Liu 等人(2018a)引入最大条件熵的正则化项加强其泛化性,并激励CTC 算法摸索更多可行的无效门路。Feng 等人(2019b)将CTC 算法与焦点损失函数相交融,以解决样本类别极度不平衡的天然场景文本辨认问题。Hu 等人(2020)利用图卷积神经网络改善基于CTC 算法解码的天然场景文本辨认算法的辨认精度和鲁棒性。 尽管CTC 算法具备很好的解码性能,并进一步推动了天然场景文本辨认畛域的倒退,然而它也面临着一些局限性:(1)CTC 算法的底层实践根底绝对简单,间接利用CTC 算法解码将会造成很大的计算耗费;(2)CTC 算法容易产生高度尖利和适度自信的预测散布(Miao 等,2015),当呈现反复字符时,解码性能降落;(3)因为CTC 算法本身构造和实现形式的限度,它很难利用于2 维的预测问题,例如不规则的天然场景文本辨认问题(不规则的天然场景文本辨认是指待辨认的文本在天然场景文本图像中的散布出现非凡的空间结构而非程度方向)。 为了解决CTC 算法无奈利用于不规则的天然场景文本辨认工作,Wan 等人(2019)通过沿着高度方向减少维度,扩大原始的CTC 算法。只管该办法在肯定水平上改善了辨认性能,然而并没有从根本上解决CTC 算法利用于二维预测工作的难点。因而,基于CTC 的天然场景文本辨认算法依然存在应用场景的限度。 将CTC 算法利用于解决2 维预测问题是将来畛域钻研中一个有后劲的钻研方向。 3.2.2.2基于注意力机制的无需宰割的场景文本识别方法基于注意力机制的天然场景文本辨认算法。注意力机制由Bahdanau 等人(2015)提出,晚期用于改善机器翻译算法的性能。注意力机制以人类的注意力特点为原型,即当人们在察看事物时,眼光往往聚焦到感兴趣的事物上而疏忽无用信息的烦扰。同样地,注意力机制能够主动地调配不同时刻的权重,达到“留神”的目标。 在机器翻译畛域,注意力机制的特点是能够主动搜查并高亮与以后预测词相干的句子成分,辅助生成预测词。近年来,注意力机制在多个畛域都获得了优异的性能,例如图像形容(He等,2019)、文本辨认(Shi 等,2019)和遥感图像分类(Wang 等,2019d) 等。对于天然场景文本辨认而言,注意力机制经常与循环神经网络联合应用,作为转录层,生成指标字符串序列。 受启发于机器翻译畛域注意力机制的胜利利用,大量基于注意力机制解码的天然场景文本辨认算法(Lee 和Osindero,2016;Shi 等,2016,2019;Yang等,2017,2019;Cheng 等,2018;Luo 等,2019;Li 等,2019; Zhan 等, 2019; Zhang 等, 2019b; Baek 等,2019a;Zhan 和Lu,2019)失去宽泛钻研。 ...