共计 4373 个字符,预计需要花费 11 分钟才能阅读完成。
摘要:文本检测是文本读取辨认的第一步,对后续的文本辨认有着重大的影响。
本文分享自华为云社区《技术综述十三:蜿蜒文本检测算法(一)》,作者:我想静静。
背景介绍
文本检测是文本读取辨认的第一步,对后续的文本辨认有着重大的影响。个别场景下,能够通过对通用指标检测算法进行配置批改,来实现对文本行的检测定位。然而在蜿蜒文字场景,通用指标检测算法无奈实现对文字边框的精准表述。因而,近年来很多学术论文都提出了新鲜的解决场景文字检测的算法,次要包含两种思路:1. 基于区域重组的文本检测;2. 基于像素宰割的文本检测。
区域重组的文本检测算法
PixelLink
PixelLink 次要是针对相邻文本难以拆散这个问题而提出的。该办法次要是预测文本 / 非文本区域,以及每个像素和它的上、下、左、右、左上、右上、左下、右下的像素之间的连贯关系。在推理阶段,被预测为文本的像素和与该像素具备连贯关系的像素被连贯在一起。最初每个连贯组件的最小外接矩形作为文本边框。
图 1. PinxelLink 算法框架
因为应用了基于连通域的办法进行文本像素汇聚,导致该办法对噪声比拟敏感,在推理阶段容易生成一些面积较小的 false positives。作者通过去除掉短边小于 10 个像素或者面积小于 300 个像素的检测后果来缓解这个问题。
TextSnake
TextSnake 次要是针对应用四边形框不能无效地检测任意形态文本而提出的。该办法应用一系列重叠的圆盘来示意文本区域,每个圆盘有特定的圆心、半径、方向。如图 1 所示,通过预测文本区域、文本中心线(实际上是核心区域)、文本中心线上每个点对应的半径以及角度来重建文本轮廓。后处理阶段须要从预测的文本核心区域取得多个中心点作为圆盘的圆心,而后依据圆心对应的半径画圆,最初将所有圆的轮廓包围起来失去最终的文本边界框。
图 2. TextSnake 文本表征办法
图 3. 中心点机制
取得圆盘中心点的步骤如图 3 所示,首先在预测的文本核心区域随机取一个点,而后依据预测的方向做该点的切线和法线,法线和文本核心区域的两端的交点的中点(图 (a) 的红点)即是该处的中心点(作为圆盘的圆心)。中心点沿着两个相同的方向后退肯定的步长,失去两个新的点,而后依据这两个新的点再寻找对应的中点。以此类推,直到进行到文本核心区域的两端。
该办法能无效地检测任意形态、方向的文本,然而后处理比较复杂且耗时。
CRAFT
CRAFT 次要是针对基于字符级的文本检测办法对于曲形文本检测存在限度的问题而提出的,但同样实用于蜿蜒文本检测。该论文的思路是通过回归字符和字符间的亲和力来检测任意形态文本,这里的亲和力是用于示意相邻的字符是否属于同一个文本实例。此外,因为很多数据集没有提供字符级标注,本文提出一个弱监督算法来从字级标注中生成字符级标注。
图 4. CRAFT 网络架构
如图 4 所示,字符区域和相邻字符亲和力都是通过一个通道进行回归失去。
图 5. CRAFT 字符区域的 ground-truth 生成办法
用于训练模型的字符区域得分和亲和力得分的 ground truth 生成过程如图 5 所示。对于字符区域得分,首先生成一个 2D 高斯图,而后计算该高斯图变换到对应的字符框的透视变换矩阵,最初应用这个矩阵将 2D 高斯图变换到相应的字符区域。对于亲和力得分的 ground-truth 的生成也是应用雷同的办法,前提只须要取得亲和力框。取得亲和力框的过程如下:1. 每个字符框连贯对角线将字符框划分为 4 个三角形,取上下方的三角形的核心作为亲和力框的顶点。2. 相邻两个字符框失去的 2 个上三角形和下三角形的核心作为四边形的顶点形成了一个亲和力边框。
弱监督字符生成算法生成字符伪标签的过程:1. 应用在合成数据集训练好的模型预测剪裁下来的文本区域的字符区域得分;2. 应用分水岭算法失去每个字符区域;3. 将坐标变换到原图失去理论的字符边框坐标。
图 6. CRAFT 弱监督学习过程
后处理:在推理阶段,预测出字符和亲和力图之后,置信度大于指定阈值的字符区域和亲和力区域都被置为 1。而后标记每个连通区域。最初,对于四边形文本,应用最小外界矩形作为边框。
图 7. 蜿蜒文本边框重组过程。
对于曲形文本,取得文本轮廓的过程如图 7 所示:第一步是沿着字符的方向找到每个字符区域的部分最长线;每条线的核心连接起来的线为中心线;每条部分最长线旋转到与中心线垂直;两端的线挪动到文本区域的两端;将所有端点连贯失去曲形文本边框。
区域重组的文本检测算法
PSENet
PSENet 是一个纯宰割的文本检测办法,该办法的初衷是为了无效地拆散任意形态的相邻文本。它通过预测多个尺度的文本宰割图来实现这个目标。具体如图 1 所示,这里以预测 3 个尺度的宰割图为例,即 (a),(e),(f)。后处理的流程如下:首先从最小尺度的宰割图(a) 给各个连贯组件调配标签,而后将 (a) 向周围扩张从而合并 (e) 中的被预测为文本的像素。同理,合并 (f) 中的文本像素。
图 1. PSENet 渐进式扩大过程
这种渐进地、从小到大合并相邻文本像素的办法能无效地拆散相邻文本实例,然而付出的代价就是速度很慢,通过 C ++ 能缓解速度慢的问题。
PAN
PAN 次要是针对现有的文本检测办法速度太慢,不能实现工业化利用而设计的。该办法从两方面来晋升文本检测的速度。第一,从网络结构上,该办法应用了轻量级的 ResNet18 作为 backbone。但 ResNet18 的特征提取能力不够强,并且失去的感触野不够大。因而,进一步提出了轻量级的特色加强模块和特色交融模块,该特色加强模块相似于 FPN,且能够多个级联在一起。特色加强模块在只减少大量的计算量的前提下无效地加强了模型的特征提取能力,并增大了感触野。第二,从后处理上晋升速度。该办法通过预测文本区域,文本核心区域(kernel),以及像素间的类似度来检测文本。应用聚类的思维,kernel 是聚类核心,文本像素是须要聚类的样本。为了聚类,属于同一个文本实例的 kernel 和对应的像素的类似度向量之间的间隔应该尽可能小,不同 kernels 的类似度向量的间隔应该远。在推理阶段,首先依据 kernel 失去连贯组件,而后沿着周围合并与 kernel 的间隔小于阈值 d 的像素。该办法在实现高精度的同时还获得了实时的文本检测速度.
图 2. PAN 网络结构
MSR
MSR 是为了解决多尺度文本检测艰难而提出来的。与别的文本检测办法不同,该办法应用了多个一样的 backbone,并将输出图像下采样到多个尺度之后连同原图一起输出到这些 backbone,最初不同的 backbone 的特色通过上采样之后进行交融,从而捕捉了丰盛的多尺度特色。网络最初预测文本核心区域、文本核心区域每个点到最近的边界点的 x 坐标偏移和 y 坐标偏移。在推理阶段,文本核心区域的每个点依据预测的 x / y 坐标偏移失去对应的边界点,最终的文本轮廓是突围所有边界点的轮廓。
图 3. MSR 算法框架
图 4:MSR 网络结构
该办法的长处是对于多尺度文本有较强的检测能力,然而因为该办法定义的文本核心区域只是文本区域在高低方向上进行了放大,而左右方向没有放大,因而无奈无效拆散程度上相邻的文本。
DB
DB 次要是针对现有的基于宰割的办法须要应用阈值进行二值化解决而导致后处理耗时且性能不够好而提出的。该办法很奇妙地设计了一个近似于阶跃函数的二值化函数,使得宰割网络在训练的时候能学习文本宰割的阈值。此外,在推理阶段,该办法依据文本核心区域的面积和周长间接扩张肯定的比例失去最终的文本轮廓,这也进一步晋升了该办法的推理速度。整体上而言,DB 对基于像素宰割的文本检测办法提供了一个很好的算法框架,解决了此类算法阈值配置的难题,同时又有较好的兼容性 – 开发者能够针对场景难点对 backbone 进行革新优化,达到一个较好的性能和精度的均衡。
图 5. DB 网络结构
基于像素宰割的算法能精准地预测出任意形态的文本实例,而后对于重叠文本区域,很难能将不同实例辨别开来。要真正将该系列算法落地,满足业务需要,将来需解决重叠文本的问题。
Reference
[1]. Deng D, Liu H, Li X, et al. Pixellink: Detecting scene text via instance segmentation[C] //Proceedings of the AAAI Conference on Artificial Intelligence. 2018, 32(1).
[2]. Long S, Ruan J, Zhang W, et al. Textsnake: A flexible representation for detecting text of arbitrary shapes[C]//Proceedings of the European conference on computer vision (ECCV). 2018: 20-36.
[3]. Baek Y, Lee B, Han D, et al. Character region awareness for text detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 9365-9374.
[4]. Wang W, Xie E, Li X, et al. Shape robust text detection with progressive scale expansion network[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 9336-9345.
[5]. Wang W, Xie E, Song X, et al. Efficient and accurate arbitrary-shaped text detection with pixel aggregation network[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019: 8440-8449.
[6]. Xue C, Lu S, Zhang W. Msr: Multi-scale shape regression for scene text detection[J]. arXiv preprint arXiv:1901.02596, 2019.
[7]. Liao M, Wan Z, Yao C, et al. Real-time scene text detection with differentiable binarization[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2020, 34(07): 11474-11481.
点击关注,第一工夫理解华为云陈腐技术~