端到端的文本检测与识别方法

导言:
基于深度学习的可端到端训练的天然场景检测与辨认算法(text spotting)因为其简洁高效且对立的构造,逐步取代了过来将检测与辨认分阶段训练而后拼接在一起的计划,成为天然场景文本检测与辨认的支流钻研方向之一。端到端天然场景文本检测和辨认网络个别都共享特征提取分支,依据提取的特色进行文本检测,而后将检测失去的文本特色送入辨认模块进行文本辨认。

目前的支流算法也能够分成单阶段和两阶段两大类两阶段的办法都是基于指标检测和实例宰割中罕用的算法Faster R-CNN 和Mask R-CNN。Li 等人(2017a)提出了第1个基于深度学习的端到端天然场景文本检测和辨认算法,该办法基于Faster R-CNN 进行检测,将通过RoI-Pooling 提取的共享特色送入基于注意力机制(Attention)的识别器进行文本辨认,但该办法只能检测辨认程度方向的文本。

Lyu 等人(2018b) 基于Mask R-CNN 提出了MaskTextSpotter,该办法在RoI-Align 之后额定减少了一个单字实例宰割的分支,对文本的辨认也是依赖于该分支的单字符分类。它可能检测并辨认任意形态的文本,但训练的时候须要依赖字符级别的标注。作者后续在这个工作的根底上提出了Mask TextSpotter v2(Liao 等,2021),它退出了基于Attention机制的序列辨认分支以进步识别器性能,其构造如图13 所示。Qin 等人(2019) 也是在Mask R-CNN 上进行改良,在预测出宰割后果和文本最大外接检测框之后通过RoI Masking 的操作失去只有文本区域的特色图送入文本辨认网络。

起初Liao 等人(2020a)思考到RPN 失去的文本候选区域对于任意形态的文本不鲁棒,于是提出了MaskTextSpotter v3,它首先设计了一个Anchor-free 的宰割区域提取网络( segmentation proposal network,SPN)代替RPN 预测任意形态文本的显著图,而后依据每个文本的掩码mask 进行Hard RoI Masking操作,失去该文本的特色并送入辨认网络,检测和辨认分支的设计思路都沿用作者之前的MaskTextSpotter v2。两阶段的端到端文本检测辨认算法的性能通常受到RoI-Pooling 等特色对齐操作的影响,所以很多学者也提出了单阶段的办法。

Liao 等人(2017)提出的TextBoxes(Liao 等人,2017) 和TextBoxes + +(Liao 等人,2018a)都是基于单阶段指标检测器SSD进行改良,在失去文本检测框之后送入CRNN(Shi等人,2017b)进行文本辨认。其中TextBoxes 只能辨认程度文本,而TextBoxes ++ 因为退出了角度预测,所以能辨认任意方向的四边形文本。He 等人(2018)应用EAST 算法先检测到任意方向的文本,而后通过Text Align 层在检测框内进行采样失去文本区域特色送入辨认分支进行辨认。

Liu 等人(2018c)提出的FOTS(fast oriented text spotting)也是和He 等人的思维相似,同样应用EAST 作为检测分支,不同之处在于FOTS 是通过RoI rotate 转换任意方向文本的特色送入识别器进行文本辨认。Xing等人(2019)提出的CharNet 则是和Mask TextSpotter一样应用单字符实例宰割作为辨认单元,检测单元则是基于单字检测和文本行检测的联合。

此外,CharNet 引入了和CRAFT 相似的迭代字符检测办法以失去单字检测后果,进步端到端的性能。基于文本组件的办法还有Feng 等人(2019a)提出的Text-Dragon,它不须要与CharNet 一样的单字符级别标注,其检测分支先检测文本的任意四边形组件,而后通过RoI slide 操作与CTC 算法联合进行文本辨认。Qiao 等人(2020a)提出的TextPerceptron 基于宰割的办法对任意形态的文本进行检测,而后通过一个形态变换模块(shape transform module)将检测到的文本区域改正成规定状态并送入辨认分支。

Wang 等人(2020a)的工作则是通过检测任意形态文本的边界点,并通过TPS 变换对文本进行改正,而后送入辨认分支输入最初的后果。Liu 等人(2020)基于不须要锚点框(anchor-free)的单阶段指标检测器FCOS(fully convolutional one-stage object detector) (Tian等,2019)提出了ABCNet(adaptive Bezier-curve network),用三次贝塞尔曲线对不规则文本进行建模,通过学习贝塞尔曲线控制点检测文本实例,并提出了Bezier Align 更高效地连贯检测与辨认的特色,极大进步了端到端文本检测与辨认的效率和性能,ABCNet的构造如图14 所示。

Baek 等人(2020)以他们之前天然场景文本检测的工作CRAFT 为根底,提出CRAFTS,在检测到不规则文本后对区域特色做TPS变换失去改正后的文本特色联合单字检测的后果,而后将其送入识别器进行文本辨认。 

罕用的端到端文本检测与辨认模型

FOTS

FOTS由中国科学院深圳先进技术研究所发表的论文《FOTS: Fast Oriented Text Spotting with a Unified Network》提出。一个对立的端到端可训练的疾速定向文本定位(FOTS)网络,用于同时检测和辨认,在两个互补的工作之间共享计算和视觉信息。特地地,引入了旋转旋转来共享检测和辨认之间的卷积特色。得益于卷积共享策略,FOTS与基线文本检测网络相比,计算耗费很小,并且联结训练方法学习了更多的通用特色,使FOTS办法比这两阶段办法体现得更好。试验ICDAR 2015,ICDAR 2017 MLT和ICDAR 2013数据集表明,该办法优于最先进的办法,在ICDAR 2015上获得89.84%的F1,帧率达到22.6fps。 

 在本文中,提出同时思考文本检测和辨认。它产生了疾速端到端训练的文本定位系统(FOTS)。与之前的两阶段文本定位相比,FOTS的办法通过卷积神经网络学习更个别的特色,这些特色在文本检测和文本辨认之间共享,而这两个工作的监督是互补的。因为特征提取通常须要大部分工夫,因而它将计算范畴放大为一个繁多的检测网络,如图1所示。连贯检测和辨认的要害是ROIRotate,它依据定向的检测边界框从特色图中失去适合的特色。 

FOTS算法原理:


FOTS是一个端到端可训练的框架,它能够同时检测和辨认天然场景图像中的所有单词。它由共享卷积、文本检测分支、旋转操作和文本辨认分支四个局部组成。其体系结构如图2所示。首先利用共享卷积的办法提取特色图。在特色图之上建设了基于全卷积网络的面向文本检测分支来预测检测边界框。旋转操作符从特色图中提取与检测后果对应的文本倡议特色。而后将文本倡议特色输出循环神经网络(RNN)编码器和基于神经网络的时序类分类(CTC)解码器进行文本辨认。因为网络中的所有模块都是可微的,所以整个零碎能够进行端到端进行训练。  

backbone
共享卷积层的骨干网络是ResNet-50 。受FPN 的启发,FOTS连贯了低级特色映射和高级语义特色映射。由共享卷积产生的特色图的分辨率为输出图像的1/4。文本检测分支应用共享卷积产生的特色输入文本的密集每像素预测。利用检测分支产生的面向文本区域的倡议,所提出的旋转旋转将相应的共享特色转换为固定高度的示意,同时放弃原始区域的高宽比。最初,文本辨认分支辨认区域提案中的单词。采纳CNN和LSTM对文本序列信息进行编码,而后采纳CTC解码器。

  

文本检测分支(the text detection branch)

受EAST与DDRN的启发,FOTS采纳齐全卷积网络作为文本检测器。 因为天然场景图像中有许多小文本框,FOTS将共享卷积中原始输出图像的1/32到1/4大小的特色映射放大。 在提取共享特色之后,利用一个转换来输入密集的每像素的单词预测。 第一个通道计算每个像素为正样本的概率。 与EAST相似,原始文本区域的放大版本中的像素被认为是正的。 对于每个正样本,以下4个通道预测其到蕴含此像素的边界框的顶部,底部,左侧,右侧的间隔,最初一个通道预测相干边界框的方向。 通过对这些正样本利用阈值和NMS产生最终检测后果。  

RoIRotate操作


 RoIRotate对定向特色区域进行变换,失去轴对齐的特色图,如图4所示。在这项工作中,咱们固定了输入高度,并放弃高宽比不变,以解决文本长度的变动。与RoI pooling和RoI Align相比,RoI旋转提供了一个更通用的提取感兴趣区域特色的操作。FOTS还与RRPN中提出的RRoI pooling进行了比拟。RRoI pooling通过最大池化将旋转区域转换为固定大小的区域,同时咱们应用双线性插值来计算输入的值。该操作防止了RoI与提取的特色之间的不统一,并使输入特色的长度成为变量,更适宜于文本辨认。

RoIRotate以共享卷积生成的特色图作为输出,生成所有文本提案的特色图,高度固定和高宽比不变。与指标分类不同,文本辨认对检测噪声十分敏感。预测文本区域的一个小误差可能会切断几个字符,这对网络训练无害,因而FOTS在训练过程中应用高空实在文本区域而不是预测的文本区域。在测试时,利用阈值化和NMS来过滤预测的文本区域。旋转后,转换后的特色映射被输出到文本辨认分支。 

文本辨认分支(the text recognition branch)

文本辨认分支的指标是利用共享卷积提取和RoIRotate的区域特色来预测文本标签。思考到文本区域中标签序列的长度,LSTM的输出特色只缩小了两次(缩小为1/4)沿着宽度轴通过共享的卷积从原始图像。否则,将打消紧凑文本区域中可辨别的特色,特地是那些窄形字符的特色。FOTS的文本辨认分支包含VGGlike 序列卷积、仅沿高度轴缩减的池、一个双向LSTM 、一个全连贯和最终的CTC解码器。 

试验后果:

FOTS抉择三个具备挑战性的公共基准数据集:ICDAR 2015、ICDAR 2017 MLT和ICDAR 2013对办法进行评估。ICDAR 2015是ICDAR 2015鲁棒浏览比赛的挑战4,该比赛通常用于定向场景文本检测和定位。该数据集包含1000张训练图像和500张测试图像。这些图像由谷歌眼镜捕捉,不思考地位,因而场景中的文本能够是任意方向。对于文本辨认工作,它提供了三个特定的词汇列表,供测试阶段参考,别离命名为“STRONG”、“WEAK”和“GENERIC”。
“STRONG”词典为每张图片提供100个单词,包含图片中呈现的所有单词。
“WEAK”词汇包含整个测试集中呈现的所有单词。
“GENERIC”词汇是一个90k单词词汇。

在训练中,首先应用ICDAR 2017 MLT训练和验证数据集中的9000张图像对模型进行训练,而后应用1000张ICDAR 2015训练图像和229张ICDAR 2013训练图像对模型进行微调。ICDAR 2017 MLT是一个大型多语言文本数据集,包含7200个训练图像、1800个验证图像和9000个测试图像。该数据集由来自9种语言的残缺场景图像组成,其中的文本区域能够是任意方向的,因而更具多样性和挑战性。这个数据集没有文本检测工作,所以只报告文本检测后果。

ICDAR 2013由229张训练图像和233张测试图像组成,但与上述数据集不同,它只蕴含程度文本。本辨认工作提供了“STRONG”、“WEAK”和“GENERIC”词汇。。尽管FOTS办法是针对定向文本设计的,但该数据集的结果表明,所提出的办法也实用于程度文本。因为训练图像太少,首先应用ICDAR 2017 MLT训练和验证数据集中的9000张图像来训练预训练模型,而后应用229张ICDAR 2013训练图像进行微调。

与以往将文本检测和辨认分为两个不相干的工作的工作不同,FOTS将这两个工作联结训练,并且文本检测和辨认能够互相受害。为了验证这一点,咱们构建了一个两阶段零碎,其中文本检测和辨认模型别离进行训练。在FOTS网络中,检测网络是通过去除辨认分支来构建的,同样,检测分支也是从原始网络中去除的,从而失去辨认网络。

对于辨认网络,从源图像裁剪的文本行区域被用作训练数据,相似于以前的文本识别方法【《An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition》、《Reading scene text in deep convolutional sequences.》、《Star-net: A spatial attention residue network for scene text recognition》】。

如表2、3、4所示, FOTS显著优于文本定位工作中的两阶段办法“Our detection”和文本定位工作中的“Our Two-Stage”。结果表明,FOTS的联结训练策略使模型参数达到了更好的收敛状态。

FOTS在检测方面体现更好,因为文本辨认监控有助于网络学习具体的字符级特色。为了进行详细分析,咱们总结了文本检测的四个常见问题,未命中:失落一些文本区域,谬误:将一些非文本区域谬误地视为文本区域,拆分:将整个文本区域谬误地拆分为几个独自的局部,合并:将几个独立的文本区域谬误地合并在一起。如图5所示,与“Our detection”办法相比,FOTS大大减少了所有这四种类型的谬误。具体来说,“Our detection”办法侧重于整个文本区域特色,而不是字符级特色,因而当文本区域外部存在较大差别或文本区域与其背景具备类似模式等状况下,该办法成果不佳。因为文本辨认监管迫使模型思考字符的轻微细节,FOTS学习具备不同模式的单词中不同字符之间的语义信息。

它还加强了具备类似模式的角色和背景之间的差别。如图5所示,对于未命中的状况,“咱们的检测”办法未命中文本区域,因为它们的色彩与其背景类似。对于谬误的状况,“Our detection”办法谬误地将背景区域辨认为文本,因为它具备“相似文本”的模式(例如,具备高对比度的反复构造条纹),而FOTS在思考拟议区域中的字符细节的意识损失训练后防止了这种谬误。对于拆分状况,“Our detection”办法将文本区域拆分为两个,因为该文本区域的左侧和右侧具备不同的色彩,而FOTS将该区域作为一个整体进行预测,因为该文本区域中的字符模式是间断且类似的。对于合并案例,
“Our detection”办法谬误地将两个相邻的文本边界框合并在一起,因为它们太近且具备类似的模式,而FOTS利用文本辨认提供的字符级信息并捕捉两个单词之间的空间 在ICDAR 2015数据集的试验后果如下图所示:

 在ICDAR 2017数据集的试验后果如下图所示:

 在ICDAR 2013数据集的试验后果如下图所示:

 将FOT与最先进的办法进行比拟。如表2、3、4所示,FOTS的办法在所有数据集中都比其余办法有很大的劣势。因为ICDAR 2017 MLT没有文本检测工作,试验只报告文本检测后果。ICDAR 2013中的所有文本区域都由程度边界框标记,而其中许多区域稍微歪斜。因为FOTS的模型是应用ICDAR 2017 MLT数据进行预训练的,因而它还能够预测文本区域的方向。FOTS的最终文本定位后果放弃预测方向以取得更好的性能,并且因为评估协定的限度,FOTS的检测后果是网络预测的最小程度外接矩形。

值得一提的是,在2015年ICDAR文本辨认工作中,FOTS的办法在Fmeasure方面比之前的最佳办法【《Detecting oriented text in natural images by linking segments. 》、《An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition》】要好15%以上。对于单尺度测试,对于ICDAR 2015、ICDAR 2017 MLT和ICDAR 2013,FOTS别离将输出图像的长边大小调整为2240、1280、920,以获得最佳后果,FOTS采纳3-5尺度进行多尺度测试。

论断:

FOTS,一个面向场景文本辨认的端到端可训练框架。提出了一种新的旋转操作,将检测和辨认对立到端到端的流水线中。FOTS具备模型小,速度快,精度高,反对多角度等特点,在规范基准测试上的试验表明,FOTS的办法在效率和性能方面显著优于以前的办法。