关于人工智能:文本检测与识别白皮书第三章第三节算法模型-2

CTPN，全称是“Detecting Text in Natural Image with Connectionist Text Proposal Network”（基于连贯预选框网络的文本检测）。CTPN 间接在卷积特色映射中检测一系列精密比例的文本倡议中的文本行。CTPN 开发了一个垂直锚定机制，能够联结预测每个固定宽度提案的地位和文本 / 非文本得分，大大提高了定位精度。序列倡议由递归神经网络天然连贯，该网络无缝地合并到卷积网络中，造成端到端可训练模型。这使得 CTPN 可能摸索图像的丰盛上下文信息，使其可能弱小地检测极其含糊的文本。CTPN 能够在多尺度和多语言文本上牢靠地工作，而不须要进一步的后处理，不同于以前须要多步骤后过滤的自下而上的办法。

CTPN 包含三个要害的工作，使其对文本定位的牢靠和精确：detecting text in fine-scale proposals, recurrent connectionist text proposals, and side-refinement。Detecting text in fine-scale proposals：与 RPN 相似，CTPN 实质上是一个齐全卷积的网络，容许任意大小的输出图像。它通过在卷积特色图中密集滑动一个小窗口来检测文本线，并输入一系列精密尺度（例如，固定的 16 像素宽度）文本倡议，如图 1 (b). 所示。

CTPN 以十分深的 16 层 vggNet（VGG16）为例来形容办法，它很容易实用于其余深度模型。CTPN 的体系结构如图 1.(a). 所示，应用一个小的空间窗口，3×3，来滑动最初一个卷积层的特色图（例如，VGG16 的 conv5）。conv5 特色图的大小由输出图像的大小决定，总步幅和承受域别离固定为 16 像素和 228 像素。总步幅和承受域都是由网络体系结构固定的。在卷积层中应用滑动窗口容许它共享卷积计算，这是缩小低廉的基于滑动窗口的办法的计算的要害。CTPN 模型的网络结构如下图所示：

检测处理过程总结如下。给定一个输出图像，有 W×H×C conv5 特色图（通过应用 VGG16 模型），其中 C 是特色图或通道的数量，W×H 是空间排列。当探测器在 conv5 中密集地滑动一个 3×3 的窗口时，每个滑动窗口都采纳 3×3×C 的卷积特色来产生预测。对于每个预测，程度地位（x 坐标）和锚定地位都是固定的，这能够通过将 conv5 中的空间窗口地位映射到输出图像上来事后计算。检测器输入每个窗口地位上的 k 个锚点的文本 / 非文本分数和预测的 y 坐标 (v)。检测到的文本倡议是由文本 / 非文本得分为 >0.7（具备非最大克制）的锚点生成的。通过设计的垂直锚定和精密尺度检测策略，检测器可能通过应用单尺度图像处理大尺度和长宽比的文本线。这进一步缩小了它的计算量，同时也预测了文本行的精确定位。与 RPN 或 Faster R-CNN 零碎相比，CTPN 的精密尺度检测提供了更具体的监督信息，天然会导致更精确的检测。

Recurrent Connectionist Text Proposals：
为了进步定位精度，CTPN 将一条文本线宰割成一系列精密尺度的文本倡议，并别离进行预测。显然，独立思考每一个孤立的倡议并不是不牢靠的。这可能会导致对与文本模式具备类似的构造的非文本对象进行大量的谬误检测，如窗口、砖块、叶子等。。也能够抛弃一些蕴含弱文本信息的歧义模式。图 3（top）给出了几个例子。文本具备很强的程序特色，其中程序上下文信息对做出牢靠的决策至关重要。这曾经被最近的工作证实，其中一个循环神经网络（RNN）被利用于编码这个上下文信息，用于文本辨认。钻研结果表明，序列上下文信息极大地简化了裁剪词图像的辨认工作。RNN 为常常应用它的暗藏层来编码这些信息提供了一个天然的抉择。为此，CTPN 倡议在 conv5 上设计一个 RNN 层。

Side-refinement:CTPN 能够精确、牢靠地检测到精密尺度的文本倡议。通过连贯文本 / 非文本得分为 > 0.7 的间断文本倡议，文本行结构很简略。文本行的结构如下。首先，当 (i) Bj 是间隔 Bi 最近的程度间隔，（ii）该间隔小于 50 像素，（iii）其垂直重叠时，CTPN 将 Bi（Bj）定义为 > 0.7。其次，将两个倡议分为一对，如果 Bj−> Bi 和 Bi−> Bj。而后，通过程序连贯具备雷同提议的成对来结构一条文本线。精密尺度检测和 RNN 连贯可能预测垂直方向上的精确定位。在程度方向上，图像被划分为一个等于 16 像素宽度的倡议序列。当程度两侧的文本提案没有被高空实在文本线区域齐全笼罩，或者一些边提案被抛弃（例如，文本得分较低）时，这可能会导致不精确的本地化，如图 4 所示

这种不准确性在个别的对象检测中可能不是要害的，但在文本检测中也不应被忽视，特地是对于那些小规模的文本行或单词。为了解决这个问题，CTPN 提出了一种侧细化办法，该办法能够精确预计每个锚 / 计划在左右程度侧的地位（称为侧锚或侧倡议）的偏移量。与 y 坐标预测类似，计算绝对偏移量为:

其中，xside 是间隔以后锚点最近的程度侧（例如，左侧或右侧）的预测 x 坐标。

是 x 轴上的实在（GT）边坐标，它是依据 GT 边界框和锚点地位事后计算出来的。

是 x 轴上锚的核心。瓦是锚的宽度，它是固定的，w a= 16。当 CTPN 将检测到的一系列检测到的精密文本倡议连贯到一个文本行时，侧倡议被定义为开始和完结倡议。CTPN 只应用边倡议的偏移量来细化最终的文本行边界框。图 4 给出了几个通过侧细化改良的检测例子。侧边细化进一步提高了定位精度，导致 SWT 和多语言数据集的性能进步了约 2%。

请留神，CTPN 的模型同时预测了侧边细化的偏移量，如图 1 所示。它不是从一个额定的后处理步骤中计算出来的。试验后果：CPTN 选用 ICDAR2011、ICDAR 2013、ICDAR 2015、SWT 和多语言数据集作为试验的数据集，失去了如下的试验后果。试验首先探讨了针对 RPN 和 Faster R-CNN 零碎的精密检测策略。如表 1（左）所示，单个 RPN 很难执行准确的文本定位，因为它会产生大量谬误检测（精度低）。通过应用 Fast R-CNN 检测模型从新布局 RPN 计划，Faster R-CNN 零碎大大提高了定位精度，F-measure 值为 0.75。一个察看后果是，Faster R-CNN 也会减少对原始 RPN 的回顾。

这可能得益于 Fast R-CNN 的联结边界框回归机制，该机制进步了预测边界框的准确性。RPN 提案可能粗略地本地化了文本行或单词的次要局部，但依据 ICDAR 2013 规范，这些提案不够精确。显然，拟议的精密文本提议网络（FTPN）在精确度和召回率方面显著进步了更快的 R -CNN，这表明 FTPN 通过预测一系列精密文本提议而不是整个文本行，更加精确和牢靠。试验探讨了循环连贯对 CTPN 的影响。

如图 3 所示，上下文信息十分有助于缩小谬误检测，例如类文本异样值。这对于复原高度含糊的文本（例如，十分小的文本）十分重要，这是 CTPN 的次要劣势之一，如图 6 所示。这些吸引人的个性带来了显著的性能晋升。如表 1（左）所示，通过循环连贯，CTPN 将 FTPN 从 F -measure 值 0.80 大幅提高到 0.88。运行工夫。通过应用单个 GPU，CTPN（用于整个检测解决）的实现工夫约为每幅图像 0:14s，短边为 600。没有 RNN 连贯的 CTPN 大概须要 0.13s/image GPU 工夫。因而，所提出的网络内递归机制稍微减少了模型计算量，并取得了可观的性能增益。

图 5 显示了 CTPN 在几个挑战性图像上的检测后果。能够发现，CTPN 在这些具备挑战性的状况下十分无效，其中一些状况对于以前的许多办法来说都很艰难。它可能高效地解决多尺度和多语言（如中文和韩文）。

试验对五个基准进行了全面评估。在不同的数据集中，图像分辨率有很大的不同。试验将 SWT 和 ICDAR 2015 的图像短边设置为 2000，其余三个设置为 600。试验将 CTPN 和最近颁布的几种办法进行了比拟。如表 1 和表 2 所示，CTPN 在所有五个数据集上都达到了最佳性能。在 SWT 上，CTPN 在召回率和 F -measure 上都有显著的改良，在精确度上略有进步。CTPN 的检测器在多语言上对 TextFlow 体现良好，这表明 CTPN 的办法能够很好地推广到各种语言。在 2013 年 ICDAR 上，通过将 F -measure 从 0.80 进步到 0.88，它的体现显著优于最近的 TextFlow 和 FastText。

精度和召回率都有相当大的进步，别离进步了 5% 和 7% 以上。此外，试验还将 CTPN 与首次提交后公布的几种办法进行了进一步比拟。它在 F -measure 和召回方面一直获得实质性的改良。这可能是因为 CTPN 具备很强的检测极具挑战性的文本的能力，例如，十分小的文本，其中一些文本甚至对人类来说是不受欢迎的。如图 6 所示，CTPN 检测器能够正确检测到那些具备挑战性的，但其中一些甚至被 GT 标记脱漏，这可能会升高 CTPN 的评估精度。试验进一步钻研了各种办法的运行工夫，如表 2 所示。

FASText 达到 0:15s/ 图像 CPU 工夫。通过取得 0:14s/ 图像，CTPN 的办法略快于它，但须要 GPU 工夫。尽管间接比拟它们并不偏心，但随着近年来深度学习办法在指标检测方面的巨大成功，GPU 计算已成为支流。无论运行工夫如何，CTPN 办法都大大优于 FastText，F-measure 进步了 11%。CTPN 能够通过应用较小的图像比例来缩小工夫。与 Gupta 等人应用 GPU 的 0:07s/ 图像的办法进行了比拟。CTPN 通过应用 450 的比例尺，它缩小到 0:09s/ 图像，同时在 ICDAR 2013 上取得 0.92/0.77/0.84 的 P /R/F。

连贯主义文本提议网络（CTPN）——一种高效的文本检测器，能够进行端到端的培训。CTPN 间接在卷积映射中检测精密比例文本倡议序列中的文本行。CTPN 开发了垂直锚机制，能够联结预测每个提案的准确地位和文本 / 非文本分数，这是实现文本精确定位的要害。CTPN 提出了一个网络内 RNN 层，它优雅地连贯程序文本提议，容许它摸索有意义的上下文信息。这些关键技术的倒退导致了检测高度挑战性文本的弱小能力，谬误检测更少。

CTPN 在五个基准上实现了最新的性能，每幅图像的运行工夫为 0:14s，因而十分高效。

CVPR2017 的一篇论文《Detecting Oriented Text in Natural Images by Linking Segments》介绍了一种能够检测任意角度文本的检测算法，这种办法被称为 Seglink。SegLink 的算法原理：SegLink 次要思维是将文本合成为两个部分可检测的元素，即片段（宰割）和链接。

段是笼罩单词或文本行的一部分的定向框；一个链接连贯两个相邻的段，示意它们属于同一个单词或文本行。这两个元素都被一个端到端训练的全卷积神经网络在多个尺度上密集地检测到。最终的检测是通过联合由链接连贯的段而产生的。与以前的办法相比，SegLink 在准确性、速度和训练的容易用性等方面都有所提高。在规范的 ICDAR 2015 附带性（挑战 4）基准上，它达到了 75.0% 的 f -mrasure，大大超过了之前的最佳指标。它在 512×512 图像上以超过 20 FPS 的速度运行。此外，SegLink 可能检测长行非拉丁文本，如中文。

SegLink 模型的次要思维：
SegLink 的办法用前馈 CNN 模型检测文本。给定一个大小为 wI×hI 的输出图像 I，该模型输入固定数量的片段和链接，而后通过它们的置信度分数进行过滤，并组合成整个单词边界框。边界框是一个旋转的矩形，用 b =（xb，yb，yb，wb，hb，θb）示意，其中 xb，yb 是核心的坐标，wb，hb 是宽度和高度，θb 是旋转角。SegLink 模型的网络结构如下：

该模型以 VGG16 作为网络的次要骨干，将其中的全连贯层（fc6, fc7）替换成卷积层（conv6, conv7），前面再接上 4 个卷积层（conv8, conv9, conv10, conv11），其中，将 conv4_3，conv7，conv8_2，conv9_2，conv10_2，conv11 这 6 个层的 feature map（特色图）拿进去做卷积失去 segments（切片）和 links（链接）。这 6 个层的 feature map（特色图）尺寸是不同的，每一层的尺寸只有前一层的一半，从这 6 个不同尺寸的层上失去 segment 和 link，就能够实现对不同尺寸文本行的检测了（大的 feature map 善于检测小物体，小的 feature map 善于检测大物体）。

segments 检测：segment 也是有方向的边界框，用 s =（xs、ys、ws、hs、θs）示意。SegLink 通过预计输出图像上的一组默认框的置信度分数和几何偏移量来检测片段。每个默认框都与一个特色地图地位相关联，它的分数和偏移量能够从该地位的特色中预测进去。为简略起见，SegLink 只将一个默认框与一个特色映射地位关联起来。links 检测在 segment 与 segment 的 link（链接）方面，次要存在两种状况，一种是层内链接检测（Within-Layer Link Detection）、另一种是跨层链接检测（Cross-Layer Link Detection）。如下图：

Within-Layer Link Detection：
层内链接检测示意同一特色层，每个 segment 与 8 邻域内的 segment 的连贯情况，链接不仅是将片段组合成整个单词的必要条件，而且还有助于拆散两个相邻的单词——在两个相邻的单词之间，链接应该被预测为负的。

Cross-Layer Link Detection：
Seglinks 网络中，在不同的特色层上以不同的尺度检测到片段。每一层都能够解决一系列的尺度。Seglinks 使这些范畴重叠，以防止错过它们边缘的尺度。但后果是，同一单词的片段能够同时在多层上检测到，从而产生冗余。为了解决这个问题，Seglinks 进一步提出了另一种类型的链接，称为跨层链接。一个跨层链接将两个特色层上的段依照相邻的索引连接起来。合并算法合并算法的思维如下：前馈后，网络产生许多段和链路（数量取决于图像大小）。

在组合之前，输入片段和链接将通过它们的置信度分数进行过滤。别离为分段和链接设置了不同的过滤阈值，即 α 和 β。将每个 segment 看成 node，link 看成 edge，建设图模型，而后，在图上执行深度优先搜寻（DFS），以找到其连贯的组件。每个组件都蕴含一组由链接连贯的段。用 B 示意一个连贯的组件，该组件中的段依照 Alg1 中的程序进行组合。Alg1 算法其实就是一个均匀的过程。先计算所有的 segment 的均匀 θ 作为文本行的 θ，再依据已求的 θ 为已知条件，求出最可能过每个 segment 的直线（线段，这里线段就是以 segment 最左和最右的为边界），以线段中点作为 word 的中心点（x,y），最初用线段长度加上首尾 segment 的均匀宽度作为 word 的宽度，用所有 segment 的高度的均匀作为 word 的高度。

试验后果：
Seglink 应用三个公共数据集（即 ICDAR 2015 附带文本（挑战 4）、MSRA-TD500 和 ICDAR 2013）和规范评估指标，对办法进行试验失去了如下几张表的试验后果。首先是在 ICDAR 2015 Incidental Text 上的试验后果。表 1 列出并比拟了拟议办法和其余最先进办法的后果。一些后果来自在线排行榜。

SegLink 的体现大大优于其余办法。就 f -measure 而言，它的体现比第二好的高 10.2%。思考到某些办法的精度靠近甚至高于 SegLink，改良次要来自 Recall。如图 6 所示，Seglink 的办法可能从十分芜杂的背景中辨别文本。此外，因为其明确的链接预测，SegLink 能够正确地拆散彼此十分靠近的单词。

在数据集 MSRA-TD500 的试验数据如表 2 所示：依据表 2，SegLink 在精度和 f - 测量方面得分最高。得益于其齐全卷积设计，SegLink 的运行速度为 8.9 FPS，比其余产品快很多。SegLink 也很简略。SegLink 的推理过程是检测网络中的一个前向传递，而之前的办法【《Detecting texts of arbitrary orientations in natural images》、《Robust text detection in natural scene images》、《Multi-oriented text detection with fully convolutional networks.》】波及简单的基于规定的分组或过滤步骤。TD500 蕴含许多混合语言（英语和汉语）的长文本行。

图 7 显示了 SegLink 如何解决此类文本。能够看到，段和链接沿着文本线密集检测。它们会产生很长的边界框，很难从传统的对象检测器中取得。只管中英文文本在外观上存在微小差别，但 SegLink 可能同时解决它们，而无需对其构造进行任何批改。

Seglink 在数据集 IC13 上的试验后果如表 3 所示。表 3 将 SegLink 与其余最先进的办法进行了比拟。分数由地方提交零碎应用“Deteval”评估协定计算。SegLink 在 f -measure 方面获得了十分有竞争力的后果。只有一种办法在 f - 度量方面优于 SegLink。然而，该次要用于检测程度文本，不太适宜定向文本。就速度而言，SegLink 在 512×512 图像上的运行速度超过 20 FPS，比其余办法快得多。

局限性：SegLink 的一个次要限度是须要手动设置两个阈值，α 和 β。在理论利用中，通过网格搜寻能够找到了阈值的最优值。简化这些参数将是 seglink 将来工作的一部分。另一个毛病是，SegLink 无奈检测到字符间距十分大的文本。图 8.a、b 显示了这两种状况。检测到的链接连贯相邻的段，但无奈连贯边远的段。总结：SegLink 提出一种新的文本检测策略，由一个简略和高效的 CNN 模型实现。在程度方向、面向方向和多语言的文本数据集上的优越性能很好地证实了 SegLink 是精确、疾速和灵便的。在将来，将进一步摸索其在检测蜿蜒文本等变形文本方面的后劲。此外，钻研人员还想将 SegLink 扩大到一个端到端识别系统。

参考文献：Liu C Y, Chen X X, Luo C J, Jin L W, Xue Y and Liu Y L. 2021. Deep learning methods for scene text detection and recognition. Journal of Image and Graphics,26(06):1330-1367(刘崇宇, 陈晓雪, 罗灿杰, 金连文, 薛洋, 刘禹良. 2021. 天然场景文本检测与辨认的深度学习办法. 中国图象图形学报,26(06):1330-1367)[DOI:10. 11834 / jig. 210044] Tian Z, Huang W L, He T, He P and Qiao Y. 2016. Detecting text in natural image with connectionist text proposal network / / Proceedings of the 14th European Conference on Computer Vision. Amsterdam, The Netherlands: Springer: 56-72 [DOI: 10. 1007 / 978-3-319- 46484-8_4] Shi B G, Bai X and Belongie S. 2017b. Detecting oriented text in natural images by linking segments/ / Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 2550-2558 [DOI: 10. 1109 / CVPR. 2017. 371] Ren S Q, He K M, Girshick R B and Sun J. 2015. Faster R-CNN: towards real-time object detection with region proposal networks/ / Proceedings of 2015 Annual Conference on Neural Information Processing Systems. Montreal, Canada: [s. n.]:91-99Girshick, R.: Fast r-cnn (2015), in IEEE International Conference on Computer Vision (ICCV) R. B. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In CVPR, 2014

关于人工智能:文本检测与识别白皮书第三章第三节算法模型-2

CTPN

CTPN 算法原理：

论断：

Seglink