共计 5302 个字符,预计需要花费 14 分钟才能阅读完成。
3. 罕用的文本检测与识别方法
3.1 文本检测办法
随着深度学习的疾速倒退,图像分类、指标检测、语义宰割以及实例宰割都获得了突破性的停顿,这些办法成为天然场景文本检测的根底。基于深度学习的天然场景文本检测办法在检测精度和泛化性能上远优于传统办法,逐步成为了支流。图 1 列举了文本检测办法近几年来的倒退历程。
目前,依据检测文本对象的不同能够将基于深度学习的办法划分为基于回归的文本检测办法和基于宰割的文本检测办法两大类,不同类别办法的流程如图所示。
3.1.1 基于回归的场景文本检测办法
基于回归的天然场景文本检测办法次要是基于以深度学习为根底的指标检测技术或者实例宰割技术,它将文本视为一种通用指标而后间接检测出整个文本实例。此类办法通常是间接回归出程度矩形或者多方向的任意形态多边形以解决文本检测的问题。
晚期的这类文本检测办法基于传统滑动窗口办法的思维,只是在对滑窗进行文本和非文本分类的时候应用 CNN 提取的特色而不是人工设计的特色(Wang 等,2012;Jaderberg 等,2014)。
尽管能进步分类性能,但计算量大以及适用范围窄 (大部分只能解决程度方向文本) 的问题仍旧没有解决。在基于深度学习的指标检测和宰割等技术的突破性停顿的同时,这些办法也为天然场景文本检测提供了新的思路。
基于深度学习的基于回归的天然场景文本检测办法可分为 两阶段 和单阶段 的办法。
1)两阶段检测办法。
两阶段的办法次要是借鉴了 Faster R-CNN(region CNN),R-FCN(region-based fully convolutional network)以及 Mask R-CNN 和 FCI(fully convolutional instance-aware semantic segmentation)等系列两阶段指标检测和宰割算法的思维,针对文本不同于通用指标的体现形进行专门的改良,使之能在文本检测畛域获得更好的检测性能。
Jaderberg 等人 (2016) 首先借鉴了 R -CNN 框架,利用了 EdgeBoxes 和聚合通道特色(aggregate channel feature,ACF) 等候选区域提取算法,失去单词级别的文本候选区域; 而后通过随机森林 (random forest) 对候选区域进行文本和非文本分类以过滤背景区域,失去的文本候选区域最初通过一个 CNN 对边界框回归,失去最终的检测后果。
该办法尽管获得了过后不错的性能,但因为各模块是独自优化的,容易造成误差累积,而且 EdgeBoxes 和 ACF 提取候选区域时都会存在计算量大的问题。
针对这些问题,受 Faster R-CNN 的启发,Zhong 等人 (2017) 提出的 DeepText 是第一个把该指标检测算法胜利利用到天然场景文本检测的工作。该工作应用了基于感知 (inception) 模块(Szegedy 等,2015) 的区域生成网络 (inception region proposal network,Inception-RPN) 来代替传统的候选区域提取算法(EdgeBoxes 等),大大提高了候选区域的提取效率和品质。
而后再通过 Fast R-CNN 网络对文本候选区域做更精确的回归和分类,失去最初的检测后果。然而因为 Faster R-CNN 只能预测程度矩形框,因而 DeepText 也无奈解决多方向以及不规则文本的天然场景文本检测问题。
为了适应文本的不同表现形式,更多的学者基于 Faster R-CNN 提出了不同的解决办法。
Jiang 等人 (2018) 提出的 R2CNN(rotational region CNN)为了适应文本的长宽比和方向 (程度和竖直),首先应用了多尺度的感兴趣区域池化(region of interest pooling,RoI-Pooling) 操作,减少了特色尺寸,而后在 Fast R-CNN 中额定减少了一个分支预测旋转的矩形以及一个针对歪斜框的非极大值克制后处理算法以解决多方向文本的检测问题。
Ma 等人 (2018) 同样也指出应该用旋转矩形代替程度矩形来进行文本检测。作者提出了旋转候选区域生成网络 (rotated region proposal network,RRPN),联合旋转矩形的锚点框(anchor) 来生成歪斜的文本候选区域。而后设计了旋转感兴趣区域池化 (rotated region of interest pooling,RROI Pooling) 算法为每个歪斜的候选区域从卷积特色图中提取固定尺度的特色以进一步地进行文本和非文本分类。
思考到将 Faster R-CNN 用于文本检测时,矩形锚点框与文本的形态相差过大,会导致区域生成网络 (region proposal network,RPN) 在生成文本候选区域时效率不高,鲁棒性也不强,Zhong 等人 (2019) 因而借鉴了 DenseBox(Huang 等,2015) 的思维,提出了不须要锚点框的区域生成网络(anchor-free region proposal network,AF-RPN)。
AF-RPN 通过特色图上的滑动点与原图文本核心区域的映射关系来确定特色上的文本滑动点,对于每个这样的滑动点,AF-RPN 都会预测其对应的文本边界框地位,从而能够不须要简单的锚点框计算,间接生成高质量的文本候选区域。
上述办法都是次要针对程度和多方向四边形文本而不能检测任意形态(如曲线) 的文本。
因而,Liu 等人 (2019b) 用 14 个点形容不规则文本,在 R -FCN 的根底上改良了文本边界框回归模块去预测这 14 个顶点的地位坐标,并通过循环神经网络(recurrent neural network,RNN) 对候选区域提取的特色进行上下文信息的加强以进步文本检测精度。
思考到之前的办法对于不同形态的文本须要不同数量的点来形容,Wang 等人(2019h) 提出应用 RNN 去自适应预测不同形态文本实例所须要的多边形顶点数目,并将这个模块联合到 Faster R-CNN 中,进步了整个模型的灵活性。
Liu 等人 (2019d) 提出了条件空间收缩 (conditional spatial expansion,CSE) 模块,将不规则文本检测结构成区域收缩问题,依附 CNN 提取的区域特色和已交融区域的上下文信息进行进一步区域交融失去残缺的检测后果。
Wang 等人 (2020d) 同样是基于 Faster R-CNN 设计了自适应区域生成网络 (Adaptive-RPN) 生成更加精确的文本候选区域,而后减少了一个额定的分支去进行候选区域的文本轮廓检测以克制误检状况,极大进步了检测精度,同时也能适应任意形态的文本检测。
以上文本检测办法次要是基于支流的两阶段指标检测器 Faster R-CNN。因为文本方向和形态的复杂性,它通常须要设计回归更多的顶点去形容那些多方向以及不规则的文本,这可能会带来误差累积以及额定的计算量。而 Mask R-CNN 和 FCIS 在实例宰割畛域获得了很大的提高,通过边框或边界点回归预测和像素分类相结合的思路也能够对任意形态的文本进行更不便地形容。
Dai 等人 (2018) 便是借鉴这样的思维,预测了文本候选区域的文本实例像素级掩码后,通过基于掩码的非最大值克制 (mask non maximum suppression,Mask-NMS) 失去更精确的任意形态文本检测框。
Yang 等人 (2018) 也是相似的做法,基于 FCIS 的框架通过 Inception-Text 模块和可变形 ROI 池化模块去解决多方向的文本。
Xie 等人 (2019a) 同样是为了解决蜿蜒文本检测的问题,在 Mask R-CNN 的根底上减少了一个文本语义模块以及文本区域敏感的重打分机制以克制误检的问题。
Xiao 等人 (2020) 思考到一般卷积对不规则文本的采样效率偏低,在 Mask R-CNN 中嵌入了序列变形模块(sequential deformable module,SDM),它能沿着文本方向进行特色采样,此外通过一个 Seq2seq 模型对采样过程进行限度,使之能更精确地检测不规则文本。
Liu 等人 (2019c) 则是为了解决数据标注程序歧义性的问题,提出了突围盒合成网络(box discretization network,BDN),将四边形标注框的点程序分解成由程序无关点组成的要害边,并通过匹配类型学习从学习到的要害边中重建四边形检测框。如图 3 所示,整个网络也是基于 Mask R-CNN 进行搭建,这样能够更好地解决任意方向的文本,不过对于不规则文本,BDN 并不能进行很好地检测。
Liu 等人 (2019a) 则是思考到若将文本检测视为实例宰割问题,采纳的宰割标注是间接依据文本框失去,这会使得局部背景像素被划分为正样本,从而减少训练的噪声,导致训练不稳固。于是舍弃 Mask R-CNN 中简略的 (0,1) 二值预测计划,依据文本中心点到边界的间隔为像素调配 [0,1] 中的值作为弱标签进行训练,缩小了文本边界谬误标注像素带来的训练噪声,从而进步文本的检测性能。
2)单阶段检测办法。
除了上述 RCNN 系列的两阶段检测器,很多单阶段的指标检测器如 YOLO(you only look once) 系列 (Redmon 等,2016; Redmon 和 Farhadi,2017) 和 SSD(single shot multibox detector)(Liu 等,2016a) 也被学者们利用于天然场景文本检测。Gupta 等人 (2016) 基于 YOLO 模型,对不同尺度的图像应用全卷积网络 (Long 等,2015) 定位文本的地位。基于 SSD 的办法则有以下的一些工作。
如图 4 所示,Liao 等人 (2017) 提出了 Text-Boxes,该算法针对天然场景文本的个性,设置了适应性的锚点 (Anchor),思考到文本长宽比与通用指标差异过大便采纳了长条形的卷积核,它能对程度文本获得不错的检测性能。这些学者进一步提出 TextBoxes ++ (Liao 等人,2018a),减少了角度预测以适应多方向文本的检测。He 等人(2017b) 退出了文本注意力机制,通过强化文本局部的特色增强其分类和边界框回归,同时他们设计了一个多级特色交融模块以适应文本的尺度变动。
Liu 和 Jin (2017)也是基于雷同的框架提出了深度匹配先验网络 (deep matching prior network,DMPNet),首次应用四边形锚点框来替换原来的矩形锚点框,实现了多方向文本检测。Liao 等人(2018b) 针对多方向文本这一问题,应用了方向响应网络 (oriented response network,ORN) 取代交融 SSD 中不同尺度特色的侧边连贯。ORN 能够提取旋转的文本特色以适应不同方向的文本实例,而后在每个侧边连贯提取特色后进行分类和边界框回归。
除了基于 SSD 和 YOLO 这类须要锚点框的单阶段办法之外,还有很多是借助文本的一些几何属性进行建模并利用全卷积神经网络的单阶段文本检测办法。
Zhou 等人 (2017) 借鉴了 DenseBox(Huang 等,2015)的架构和 U -Net(Ronneberger 等,2015)的个性提出了 EAST(efficient and accurate scene text detector)算法,构造如图所示。
它先在每个像素地位预测是否有文本,如果有则间接预测该像素点对应文本实例的得分图和边界坐标。He 等人 (2017c) 提出的 DDR(deep direct regression)算法思维和 EAST 类似,不过 DDR 是间接学习 4 个边界点对于有文本像素点作为文本实例中心点的偏移量,而 EAST 是回归点到边框的上下左右间隔。
相似的办法还有 Xue 等人 (2018) 提出的 Border,不过它除了进行文本和非文本分类以及边框回归的同时,还减少了对 4 条文本框边界的学习和预测。
Wang 等人 (2018b) 提出了一个实例变换网络(instance transformation network,ITN) 去学习天然场景文本的几何属性表白,以适应任意四边形文本行的检测。
针对不规则文本的检测,Long 等人 (2018) 提出的 TextSnake 是首个单阶段解决此类问题的工作。
它先利用一个全卷积神经网络预测文本区域、文本的中心线以及几何属性(角度、半径等),而后通过这些属性重建整个文本实例。
Zhang 等人 (2019a) 提出的 LOMO(look more than once)是在 EAST 算法思维的根底上额定减少了一个迭代优化模块和形态表征模块,别离增强对长文本以及对不规则文本的检测。
而 Wang 等人(2019a) 提出的 SAST(singleshot arbitrarily-shaped text detector) 同样也是 EAST 的演进版本,他们也借鉴了 TextSnake 的思维,在间接回归边界框的同时退出了对文本一些几何特色的预测(文本中心线区域、文本边界偏置和文本中心点偏置等),使之能实用于不规则的文本检测。
思考到文本多尺度的问题,Xue 等人 (2019) 提出了多尺度形态回归网络(multi-scale regression,MSR) 去检测不同尺度的任意形态文本。MSR 别离预测文本核心区域、核心区域的点到最近边界的横向和纵向间隔,最初通过后处理失去文本边框。