共计 3483 个字符,预计需要花费 9 分钟才能阅读完成。
3.1.2 基于宰割的场景文本检测办法
基于宰割的天然场景文本检测办法次要是借鉴传统的文本检测办法的思维,先通过卷积神经网络检测出根本的文本组件,而后通过一些后处理的形式将文本组件汇集成一个残缺的文本实例。此类办法能够进一步划分为像素级别的办法 (基于宰割的办法) 和文本片段级别的办法。
1)像素级别的基于宰割的办法。
像素级别的文本检测办法通常借鉴物体语义宰割和实例宰割的思维,利用全卷积神经网络 (fully convolution network,FCN)(Long 等人,2015) 对图像中的每个像素点进行文本和非文本分类,从而失去文本区域掩码图(Mask)。而后通过一些像素聚合的后处理形式将属于同一文本的文本像素点聚合在一起失去最初的文本实例边界框。
上述局部自顶向下的办法尽管也借鉴了宰割的思路,但同时也联合了整个文本边界框的回归,而像素级别的基于宰割的办法则齐全依附像素级别的分类和后处理失去文本检测的后果。这类办法能够比拟轻松地形容任意形态的文本,但后处理会比较复杂,而且对密集型文本做文本区域的掩码图预测时容易产生重叠,不容易将不同文本实例离开。针对此问题,许多学者都提出了不同的解决方案。
Zhang 等人 (2016) 的工作首次将文本像素分类预测用于天然场景文本检测工作当中,该办法首先通过一个 FCN 预测失去文本区域的宰割显著图。而后利用 MSER 检测算子在文本区域内提取候选字符。最初通过字符投影的一些后处理办法连贯字符区域生成文本行检测后果。Yao 等人 (2016) 利用 FCN 同时预测文本行区域、单字符区域以及字符连贯方向,对在同一个文本区域的字符构建一个图,利用字符之间的地位和方向的类似度把图划分成若干子图,每个子图都对应着一个文本实例。
He 等人 (2016c) 级联了两个 FCN,第 1 个 FCN 预测整个文本粗略的显著图,第 2 个 FCN 则是预测文本的核心区域以辨别不同的文本。这种从毛糙到精密的宰割形式对于不同尺度和散布的文本检测都会有比拟好的泛化性能。同样为防止文本黏连,Wu 和 Natarajan(2017)提出了文本边界学习(border learning),除了文本和非文本的像素分类之外,还预测了文本的边界区域。
Zhu 和 Du(2021)提出的 TextMountain 也是为了解决相似的问题,他预测文本核心到边界像素点的概率分布而不是单纯地对文本区域和非文本区域做二分类。Deng 等人(2018) 提出的 Pixel-Link 则是预测像素点与相邻的 8 个像素点之间的连贯关系(若两个像素点都属于同一文本区域,则两者断定为连贯关系),基于这样的信息能够无效组合属于同一文本的像素点。
Xu 等人 (2019) 思考到相邻的属于不同文本的像素在各自文本实例中的绝对地位不同提出了 TextField,利用这样的方向场 (direct field) 去预测 2 维的绝对地位向量,依据方向无效辨别邻近的像素点从而克制文本粘连。同样是思考到核心区域能比拟好地划分不同文本这一思维,Wang 等人 (2019f) 提出了一种对文本实例实现多级预测的渐进式尺度扩张网络(progressive scale expansion network,PSENet)。
先利用 FCN 对每个文本实例进行像素级别分类以及对多个不同尺度的文本核心区域 (文本核) 进行预测,而后通过渐进性尺度扩张算法失去文本实例宰割的后果。然而 PSENet 的后处理很简单,模型的前向预测效率比拟低,于是作者又提出了像素汇集网络(pixel aggregation network,PAN)(Wang 等人,2019g)。PAN 设计了一个轻量化的特征提取和交融网络,除了预测文本区域和文本核外,还预测一个像素类似向量,依据向量预测后果疏导文本像素聚合到正确的文本核以失去不同文本实例检测后果。所以这个后处理形式是可学习的,检测效率也远高于 PSENet。
此外,Tian 等人 (2019) 的工作也是相似的思维,都是对每个像素点学习一个嵌入式类似向量,属于同一文本的向量会尽可能靠近,反之远离,通过这样的形式拆散不同的文本实例。相似地,思考到基于像素分类的办法其简单的后处理影响检测效率的问题,Liao 等人 (2020b) 提出了可微分二值化 (differentiable binarization,DB) 的办法,构造如图 6 所示。
惯例的基于像素分类的检测办法通常应用固定阈值对宰割图进行二值化解决,而 DB 则是将二值化操作嵌入网络,除了学习文本区域的显著图之外,还会预测对应的阈值图,通过两者联合生成最初的后果,大大提高了后处理的效率和模型前向推理速
2)文本片段级别的基于宰割的办法。
文本片段级别定义为字符或者文本的一部分,这类文本检测办法通常是利用指标检测算法从图像中检测出这样的文本片段。而后依据特色相似性,通过一些后处理算法把检测出的文本片段拼接成残缺的文本实例。
因而,如何鲁棒地把文本片段拼接成文本实例是这一类办法的难点。Tian 等人 (2016) 提出了文本区域连贯网络(connectionist text proposal network,CTPN),它借鉴了 RPN 的思维,首先提取文本片段级别的候选区域,而后通过后处理的办法将这些候选区域拼接成一个残缺的文本实例。该办法最大的特点在于,在特征提取的时候退出了双向长短期记忆网络(Bi-LSTM)(bidirectional long short term memory network) (Graves 和 Schmidhuber,2005) 进行序列建模,这能无效解决长文本检测的问题,但 CTPN 只能检测程度方向的文本。
Shi 等人 (2017b) 借鉴了 CTPN 的思维,提出了能够实现任意方向天然场景文本检测的 SegLink 算法,如图 7 所示,它基于单阶段指标检测器 SSD 对文本片段进行了检测,同时还预测了各片段之间的连贯关系,依据这样的连贯关系将文本片段组合成最初的文本实例。然而,该办法在面对密集型文本时,连贯关系的预测可能会产生谬误。
于是,Tang 等人 (2019) 在 SegLink 的根底上提出了 SegLink ++ 算法,它通过学习文本片段之间的互斥连贯 (repulsive link) 对文本片段的连贯关系进行分类,互斥连贯的退出能够无效防止相邻文本实例的粘连。这两个算法所谓的连贯关系指的都是判断检测到的文本片段是否属于同一个文本例。Lyu 等人 (2018a) 则是提出了应用角点检测生成候选的四边形检测框,同时在整图级别进行逐像素分类失去文本的地位得分,随后两个后果相结合输入最初的文本检测后果。
Liu 等人 (2018f) 提出的 CENet(character embedding network)与上述 PAN(Wang 等人,2019g)等办法思维相似,通过对每个字符学习一个嵌入式向量 (character embedding),在训练过程中使在同一个文本实例外部的字符的嵌入式向量尽可能地靠近,反之则尽可能地远离,通过这种形式能够把属于同一个文本实例的字符区域聚合在一起。Hu 等人(2017) 也是提出先检测单个字符区域,而后基于一些固定规定将这些字符拼接成任意方向的文本实例。
罕用的拼接规定有文本片段之间的程度和竖直方向间隔以及尺度和方向的相似性等。因为单字符标注比拟少而且标注老本也比拟高,该办法第一次提出通过弱监督的形式失去天然场景文本单字符检测后果的算法 WordSup。同样为了失去单字符的检测后果,Tian 等人 (2017) 提出的 WeText 也是基于 SSD 提出的一个弱监督的框架,失去了单字符检测后果之后和 Hu 等人的办法一样通过规定进行拼接。
但该办法只能用于检测程度方向的文本,泛化性能比拟差。Hu 等人 (2017) 提出的弱监督的算法也被 Baek 等人 (2019b) 改良并利用到他们的 CRAFT(character region awareness for text detection)算法中,它通过相似的形式失去单字符的标注,而后通过高斯分布建模学习单个字符的核心概率以及字符之间的连贯关系(character affinity),再通过连贯关系将各字符连贯在一起取得文本行检测后果。
这个办法因为须要预测连贯关系,所以会对单字符的检测有肯定影响。对于文本片段是否属于同一文本实例的判断,Zhang 等人 (2020c) 提出 DRR(deep relational reasoning graph network)通过图网络的形式进行预测,该办法首先检测文本片段,而后对这些片段构建部分图,通过深度关系推理网络失去它们的连贯关系,并依据此关系连成各个文本实例。