乐趣区

关于文本处理:4种基于像素分割的文本检测算法

摘要:文本检测是文本读取辨认的第一步,对后续的文本辨认有着重大的影响。个别场景下,能够通过对通用指标检测算法进行配置批改,来实现对文本行的检测定位。本文次要介绍基于像素宰割的文本检测算法。

本文分享自华为云社区《技术综述十四:蜿蜒文本检测算法(二)》,作者:我想静静。

背景介绍

文本检测是文本读取辨认的第一步,对后续的文本辨认有着重大的影响。个别场景下,能够通过对通用指标检测算法进行配置批改,来实现对文本行的检测定位。然而在蜿蜒文字场景,通用指标检测算法无奈实现对文字边框的精准表述。因而,近年来很多学术论文都提出了新鲜的解决场景文字检测的算法,次要包含两种思路:1. 基于区域重组的文本检测;2. 基于像素宰割的文本检测。本文次要介绍基于像素宰割的文本检测算法。

PSENet

PSENet 是一个纯宰割的文本检测办法,该办法的初衷是为了无效地拆散任意形态的相邻文本。它通过预测多个尺度的文本宰割图来实现这个目标。具体如图 1 所示,这里以预测 3 个尺度的宰割图为例,即 (a),(e),(f)。后处理的流程如下:首先从最小尺度的宰割图(a) 给各个连贯组件调配标签,而后将 (a) 向周围扩张从而合并 (e) 中的被预测为文本的像素。同理,合并 (f) 中的文本像素。

图 1. PSENet 渐进式扩大过程

这种渐进地、从小到大合并相邻文本像素的办法能无效地拆散相邻文本实例,然而付出的代价就是速度很慢,通过 C ++ 能缓解速度慢的问题。

PAN

PAN 次要是针对现有的文本检测办法速度太慢,不能实现工业化利用而设计的。该办法从两方面来晋升文本检测的速度。第一,从网络结构上,该办法应用了轻量级的 ResNet18 作为 backbone。但 ResNet18 的特征提取能力不够强,并且失去的感触野不够大。因而,进一步提出了轻量级的特色加强模块和特色交融模块,该特色加强模块相似于 FPN,且能够多个级联在一起。特色加强模块在只减少大量的计算量的前提下无效地加强了模型的特征提取能力,并增大了感触野。第二,从后处理上晋升速度。该办法通过预测文本区域,文本核心区域(kernel),以及像素间的类似度来检测文本。应用聚类的思维,kernel 是聚类核心,文本像素是须要聚类的样本。为了聚类,属于同一个文本实例的 kernel 和对应的像素的类似度向量之间的间隔应该尽可能小,不同 kernels 的类似度向量的间隔应该远。在推理阶段,首先依据 kernel 失去连贯组件,而后沿着周围合并与 kernel 的间隔小于阈值 d 的像素。该办法在实现高精度的同时还获得了实时的文本检测速度.

图 2. PAN 网络结构

MSR

MSR 是为了解决多尺度文本检测艰难而提出来的。与别的文本检测办法不同,该办法应用了多个一样的 backbone,并将输出图像下采样到多个尺度之后连同原图一起输出到这些 backbone,最初不同的 backbone 的特色通过上采样之后进行交融,从而捕捉了丰盛的多尺度特色。网络最初预测文本核心区域、文本核心区域每个点到最近的边界点的 x 坐标偏移和 y 坐标偏移。在推理阶段,文本核心区域的每个点依据预测的 x / y 坐标偏移失去对应的边界点,最终的文本轮廓是突围所有边界点的轮廓。

图 3. MSR 算法框架

图 4:MSR 网络结构

该办法的长处是对于多尺度文本有较强的检测能力,然而因为该办法定义的文本核心区域只是文本区域在高低方向上进行了放大,而左右方向没有放大,因而无奈无效拆散程度上相邻的文本。

DB

DB 次要是针对现有的基于宰割的办法须要应用阈值进行二值化解决而导致后处理耗时且性能不够好而提出的。该办法很奇妙地设计了一个近似于阶跃函数的二值化函数,使得宰割网络在训练的时候能学习文本宰割的阈值。此外,在推理阶段,该办法依据文本核心区域的面积和周长间接扩张肯定的比例失去最终的文本轮廓,这也进一步晋升了该办法的推理速度。整体上而言,DB 对基于像素宰割的文本检测办法提供了一个很好的算法框架,解决了此类算法阈值配置的难题,同时又有较好的兼容性 – 开发者能够针对场景难点对 backbone 进行革新优化,达到一个较好的性能和精度的均衡。

图 5. DB 网络结构

基于像素宰割的算法能精准地预测出任意形态的文本实例,而后对于重叠文本区域,很难能将不同实例辨别开来。要真正将该系列算法落地,满足业务需要,将来需解决重叠文本的问题。

Reference

[1]. Wang W, Xie E, Li X, et al. Shape robust text detection with progressive scale expansion network[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 9336-9345.

[2]. Wang W, Xie E, Song X, et al. Efficient and accurate arbitrary-shaped text detection with pixel aggregation network[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019: 8440-8449.

[3]. Xue C, Lu S, Zhang W. Msr: Multi-scale shape regression for scene text detection[J]. arXiv preprint arXiv:1901.02596, 2019.

[4]. Liao M, Wan Z, Yao C, et al. Real-time scene text detection with differentiable binarization[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2020, 34(07): 11474-11481.

想理解更多的 AI 技术干货,欢送上华为云的 AI 专区,目前有 AI 编程 Python 等六大实战营(http://su.modelarts.club/qQB9)供大家收费学习。

点击关注,第一工夫理解华为云陈腐技术~

退出移动版