关于机器学习:文本检测与识别白皮书32第一节基于分割的场景文本识别方法

2次阅读

共计 5736 个字符,预计需要花费 15 分钟才能阅读完成。

3.2 技术背景——文本识别方法

3.2.1 基于宰割的场景文本识别方法

基于宰割的辨认算法是天然场景文本辨认算法的一个重要分支(Wang 等,2012;Bissacco 等,2013;Jaderberg 等,2014),通常包含 3 个步骤: 图像预处理、单字符宰割和单字符识别。基于宰割的天然场景文本辨认算法通常须要定位出输出文本图像中蕴含的每个字符的所在位置,通过单字符识别器辨认出每一个字符,而后将所有的字符组合成字符串序列,失去最终的辨认后果。

一个晚期的天然场景文本识别系统 (Wang 等,2011),以单字符的得分和地位作为零碎输出,利用图形模型从一个特定的词典中找到与辨认后果绝对应的最佳匹配文本,将其作为最终的辨认后果。该办法不仅在辨认性能上超过了过后最当先的商用 OCR 零碎 ABBYY,同时也奠定了天然场景文本辨认畛域的基准性能。受启发于深度卷积神经网络在视觉了解工作(LeCun 等,1998) 的胜利利用,重叠多层神经网络的无监督特色学习形式被广泛应用于天然场景文本辨认工作(Wang 等,2012; Liu 等,2016c;Mishra 等,2016),用以训练一个高性能的字符识别模块。

特地地,字符间距算法或集束搜寻 (beam search) 算法 (Liu 等,2002) 被用于解决后续字符串转录,从一个特定的字典中匹配到最佳的辨认后果。为了进一步改善天然场景文本辨认算法的辨认性能,尺度不变特色变换 (scale-invariant feature transform,SIFT) 形容子 (Phan 等,2013)、笔画(Yao 等,2014b) 及中级视觉特色 (Gordo,2015) 等算法被用于提取更鲁棒的文本图像视觉特色表白。具体而言,与 Wang 等人 (2011) 不同,Phan 等 (2013) 将基于宰割的辨认算法中的单字符识别工作视为寻找字符集与特定字典的最佳匹配工作,通过在任意方向上提取文本图像的尺度不变特色变换形容子,获取图像特色表白,用于后续的天然场景文本辨认。

Yao 等人 (2014b) 为单字符识别器设计了一个新鲜的特色表白,即笔画(Strokelets),能够通过字符边框地位由深度神经网络主动地学习失去,并从多个图像尺度上捕捉字符的结构特征。通过大量的试验验证及可视化剖析得出,笔画特色在鲁棒性、泛化性和可解释性上都显著优于传统的特征描述子。上述提到的算法均依赖于字典匹配获取最佳的辨认后果。然而,算法的搜寻工夫与字典的规模相干。随着待匹配字典规模的减少,算法的搜寻空间也大大增加,因而,依赖于字典匹配获取最佳辨认后果的天然场景文本辨认算法很难间接利用于理论的利用中。

为了解决上述难点,无字典束缚的天然场景文本辨认算法开始被宽泛摸索。Mishra 等人 (2012) 利用大规模的字典作为高阶统计语言模型,克服了须要特定字典来匹配辨认后果的毛病,实现了无字典束缚的天然场景文本辨认。其余钻研人员则利用更大规模的数据 (Bissacco 等,2013) 和更简单的网络结构 (Jaderberg 等,2014;Guo 等,2016),例如 Maxout 网络(Goodfellow 等,2013) 等,改善无字典束缚的天然场景文本辨认算法的辨认性能。只管基于宰割的天然场景文本辨认算法从辨认性能和泛化性能上都显著优于传统文本辨认算法,但基于宰割的天然场景文本辨认算法要求精准的字符宰割后果。特地地,字符宰割被视为计算机视觉畛域最具挑战性的研究课题之一。因而,基于宰割的天然场景文本辨认算法的辨认性能高度依赖并受限于单字符宰割的性能。

3.2.2 无需宰割的场景文本识别方法

 
天然场景文本辨认算法的另一个重要分支是无需宰割的辨认算法。无需宰割的天然场景文本辨认算法旨在将整个文本行视为一个整体,间接将输出的文本图像映射为指标字符串序列,从而防止了单字符宰割的毛病和性能限度,此类办法也是以后的支流办法。无需宰割的天然场景文本辨认算法如图所示,通常包含 4 个阶段: 图像预处理阶段、特征提取阶段、序列建模阶段和预测转录阶段。

1. 图像预处理阶段

图像预处理阶段旨在晋升输出图像的品质,从而改善后续文本图像特色表征,升高辨认难度。罕用的图像预处理算法包含: 背景擦除、超分辨率和不规则纠正等。

1)背景擦除。
天然场景文本大多具备十分复杂的背景,且背景中的局部纹理特色与文本特色从视觉上看是十分相似的,这大大增加了天然场景文本辨认的难度。除了建模更加简单精细的特征提取阶段 (Liu 等,2018b) 和合成背景简单的文本数据(Fang 等,2019;Wu 等,2019) 外,一个简略且间接的办法是将文本从简单的背景中剥离。只管传统的图像二值化办法 (Casey 和 Lecolinet,1996) 针对文档图像具备较好的解决性能,但这类办法很难解决天然场景文本复杂多变的字体格调和多种环境噪声烦扰。Luo 等人 (2021) 利用生成反抗网络 (Goodfellow 等,2014) 移除背景,保留文本特色。该 办法大大降低了后续辨认网络的难度,并显著改善了辨认性能。

2)超分辨率。
天然场景文本通常受到多种环境噪声的烦扰而出现低分辨率的特点。较低的分辨率会加大后续辨认网络呈现误辨认及字符缺漏的危险。图像超分辨率算法可能依据给定低分辨率的图像无效输入对应的较高分辨率的图像,升高后续辨认网络的辨认难度。传统的超分辨率算法,如双线性插值、双三次插值等,旨在重构整幅天然场景文本图像的纹理特色,并不齐全实用于低分辨率的天然场景文本 (Wang 等,2020c)。相比于简略地将天然场景图像超分辨工作视为回归工作(Dong 等,2016),钻研人员(Wang 等,2020c;Mou 等,2020) 采取多任务的网络结构设计,将超分辨率与天然场景文本辨认工作有机联合,显著改善了天然场景低分辨率文本的辨认性能。

3)不规则纠正。
不规则纠正的目标在于规范化输出的天然场景文本图像,将不规则的文本排布复原为惯例的程度平直文本,从而升高后续辨认网络的辨认难度。不规则天然场景文本是指含有透视变换或不规则排布的天然场景文本。空间变换网络 (Jaderberg 等,2015b) 作为晚期的纠正模块,常被用于纠正整幅天然场景文本图像 (Shi 等,2016;Liu 等,2016b) 或单字符区域的文本图像 (Liu 等,2018b)。Shi 等人(2019) 利用薄板样条插值(thin plate spline,TPS) 算法 (Bookstein,1989) 解决更加简单的文本形变。

越来越多精密设计的纠正网络被提出,例如,Luo 等人 (2019) 通过预测输出天然场景文本图像不同区域的偏置,设计了一个多指标的像素级天然场景文本图像纠正网络。Zhan 等人 (2019) 为了改善天然场景文本图像纠正性能,提出了一个新鲜的线性拟合变换和一个迭代的基于薄板样条插值的纠正网络。Yang 等人 (2019) 基于图像属性 (中心线、尺度和旋转方向等) 提出了一个对称性限度的天然场景文本图像纠正网络。

为了解决多变的文本噪声,越来越简单的图像预处理模块设计曾经成为一种新的行业趋势。然而,简单的模块设计除了带来辨认性能的晋升,也意味着工夫和内存的大量耗费。钻研人员应该依据理论的利用场景感性衡量评估算法的性能和速度需要。随着不规则文本检测技术的迅猛发展,天然场景文本辨认算法中的不规则纠正模块是否是解决文本排布规定的惟一计划值得思考。

图像预处理包含且不限于上述内容,不同解决算法间能够叠加应用。图像预处理可能通过改善输出天然场景文本图像的品质,显著地进步后续辨认网络的辨认性能。尽管近年来天然场景文本辨认算法取得了迅猛发展,然而上述根底的图像预处理计划却很少在畛域中利用。因而,设计更加精美的图像预处理算法值得钻研人员及相干从业人员的关注。

2. 特征提取阶段

特征提取阶段旨在将输出的天然场景文本图像映射为鲁棒的高级视觉特色表白,强调待辨认字符特色,克制无关背景及属性特色,如字体、色彩和尺度等。

晚期,Su 和 Lu(2014) 利用方向梯度直方图 (HOG) 特征描述子构建天然场景文本图像的序列文本特色。得益于视觉了解等工作的胜利利用,度卷积神经网络 (Yin 等,2017;Cheng 等,2018;Liu 等,2018b;Zhan 和 Lu,2019;Luo 等,2019;Wan 等,2020) 及其变体宽泛地利用于特征提取阶段,例如 VGGNet(Visual Geometry Group Network)(Simonyan 和 Zisserman,2015; Shi 等,2017a; Jaderberg 等,2015a;Yu 等,2020;Yang 等,2017)。

为了取得更弱小的视觉特色表白,更多精心设计的、简单的神经网络相继利用于天然场景文本辨认畛域,如残差神经网络 (He 等,2016a;Liu 等,2016b;Fang 等,2018;Wang 等,2020b;Shi 等,2019;Chen 等,2020;Xie 等,2019c;Li 等,2019;Zhan 等,2019;Yang 等,2019;Baek 等,2019a;Qi 等,2019;Zhu 等,2019;Zhan 和 Lu,2019) 和 DenseNet (Huang 等,2017; Gao 等,2018;Gao 等,2019) 等。钻研人员尝试从多个不同的角度改善特征提取阶段的特色表征。例如,Lee 和 Osindero(2016)利用递归卷积神经网络建设参数高效的特色表征。

相比于传统的卷积神经网络而言,递归卷积神经网络可能在雷同的参数规模下,建模更加紧凑的特色空间。受启发于循环卷积神经网络在图像分类中的胜利利用,Wang 和 Hu(2017)设计了一个门控循环神经网络,通过管制辨认模型外部视觉特色的信息流动,改善天然场景文本的序列特色表征。不同于上述算法,Liu 等人 (2018e) 专一于实时的天然场景文本辨认,并提出了新鲜的二进制卷积神经网络层。通过大量的试验验证,二进制的特色表征显著放慢了推理速度,升高了内存耗费。

一些钻研 (Gao 等,2018;Zhang 等,2019b;Liao 等,2021;Huang 等,2020;Fang 等,2018) 认为,间接应用深度卷积神经网络在原始天然场景文本输出图像上进行特征提取会引入大量的额定噪声,从而减少后续辨认网络的辨认难度。因而,将深度卷积神经网络与注意力机制 (Bahdanau 等,2015) 相结合,强化无效的前景文本区域,弱化背景噪声。特地地,Liao 支在与检测分支联合后,可进一步达到端到端天然场景文本检测与识别系统的领先水平。

近期,Zhang 等人 (2020b) 利用网络结构搜寻确定特征提取阶段的网络结构,改善天然场景文本辨认算法对于丰盛多样的输出文本图像的泛化性。

更深的网络结构以及更先进的特征提取算法通常会带来更好的图像特色表征,改善具备简单背景的天然场景文本辨认算法的辨认性能。然而,辨认性能的晋升往往以大量的计算及内存耗费为代价。在将来的畛域钻研中,背景擦除的图像预处理算法与绝对简略的特征提取器的联合兴许是改善简单背景的天然场景文本辨认算法辨认性能的无效计划。

3. 序列建模阶段  

序列建模阶段,作为视觉特色表征阶段与转录解码阶段的连接桥梁,旨在建模字符与字符之间的语义相关性,捕捉序列文本间的上下文信息。多层双向长短期记忆网络 (Graves 等,2009) 可能捕捉长期的上下文依赖关系,常作为序列建模模块 (Su 和 Lu,2014,2017;Shi 等,2017b,2019;Liu 等,2016b;Wang 和 Hu,2017;Wang 等,2018a;Cheng 等,2018;Gao 等,2018;Luo 等,2019;Chen 等,2020; Li 等,2019;Zhan 等,2019;Yang 等,2019;Baek 等,2019a) 宽泛地利用于天然场景序列文本辨认算法中。Litman 等人 (2020) 通过在不同网络深度减少监督信息,胜利地重叠了多层双向长短期记忆网络,改善了上下文信息即语义信息的建模过程。

然而,一些钻研人员认为 (Yin 等,2017;Fang 等,2018;Xie 等,2019b;Gao 等,2019;Qi 等,2019) 双向长短期记忆网络或者不应该成为天然场景文本辨认算法的必须组成部分。只管双向长短期记忆网络可能无效地建模上下文信息,但其递归的网络结构耗时重大,还可能引起训练过程中的梯度隐没及梯度爆炸问题。因而,局部钻研人员抉择滑窗 (Yin 等,2017) 或深层一维卷积神经网络 (Fang 等,2018;Xie 等,2019b;Gao 等,2019) 代替双向长短期记忆网络建模语义信息。

只管在晚期的畛域钻研中,深度卷积神经网络广泛应用于提取视觉特色表征 (Wang 等,2012;Mishra 等,2016;Liu 等,2016c),但深度卷积神经网络也能够通过精准地管制感触野范畴建模语义特色。近年来,一些钻研人员(Yu 等,2020;Qiao 等,2020b) 更多地专一于建模全局语义信息。Yu 等人 (2020) 通过多路并行传输,设计了一个全局语义推理模块捕捉全局语义信息。Qiao 等人 (2020b) 借助自然语言解决畛域弱小的预训练模型作为监督信息,领导语义特色的学习。

语义特色对于基于图像的天然场景文本辨认工作而言是非常重要的。只管基于循环神经网络 (Hochreiter 和 Schmidhuber,1997) 及其变体的网络结构,例如长短期记忆网络和双向长短期记忆网络,可能无效地建模语义信息,捕捉长期的上下文依赖关系,但它依然存在一些局限性。相同,深度卷积神经网络或 Transformer(Vaswani 等,2017) 构造通过精准的感触野设计,不仅可能建模文本的语义信息,而且可能高效地并行处理。通过深度卷积神经网络或 Transformer 构造建模天然场景文本的语义信息兴许将成为畛域内的新趋势。

4. 预测转录阶段  

预测转录阶段旨在将天然场景文本图像特征向量解码为指标字符串序列。预测转录阶段依据选用解码器的不同,大抵能够分为基于时序连贯序列 (connectionist temporal classification,CTC) 解码的天然场景文本辨认算法和基于注意力机制解码的天然场景文本辨认算法两大类。

正文完
 0