关于人工智能:文本检测与识别白皮书第三章第三节算法模型-2

CTPN

CTPN，全称是“Detecting Text in Natural Image with Connectionist Text Proposal Network”（基于连贯预选框网络的文本检测）。CTPN间接在卷积特色映射中检测一系列精密比例的文本倡议中的文本行。CTPN开发了一个垂直锚定机制，能够联结预测每个固定宽度提案的地位和文本/非文本得分，大大提高了定位精度。序列倡议由递归神经网络天然连贯，该网络无缝地合并到卷积网络中，造成端到端可训练模型。这使得CTPN可能摸索图像的丰盛上下文信息，使其可能弱小地检测极其含糊的文本。CTPN能够在多尺度和多语言文本上牢靠地工作，而不须要进一步的后处理，不同于以前须要多步骤后过滤的自下而上的办法。

CTPN算法原理：

CTPN包含三个要害的工作，使其对文本定位的牢靠和精确：detecting text in fine-scale proposals, recurrent connectionist text proposals, and side-refinement。Detecting text in fine-scale proposals：与RPN相似，CTPN实质上是一个齐全卷积的网络，容许任意大小的输出图像。它通过在卷积特色图中密集滑动一个小窗口来检测文本线，并输入一系列精密尺度（例如，固定的16像素宽度）文本倡议，如图1 (b).所示。

CTPN以十分深的16层vggNet（VGG16）为例来形容办法，它很容易实用于其余深度模型。CTPN的体系结构如图1.(a).所示，应用一个小的空间窗口，3×3，来滑动最初一个卷积层的特色图（例如，VGG16的conv5）。conv5特色图的大小由输出图像的大小决定，总步幅和承受域别离固定为16像素和228像素。总步幅和承受域都是由网络体系结构固定的。在卷积层中应用滑动窗口容许它共享卷积计算，这是缩小低廉的基于滑动窗口的办法的计算的要害。CTPN模型的网络结构如下图所示：

检测处理过程总结如下。给定一个输出图像，有W×H×C conv5特色图（通过应用VGG16模型），其中C是特色图或通道的数量，W×H是空间排列。当探测器在conv5中密集地滑动一个3×3的窗口时，每个滑动窗口都采纳3×3×C的卷积特色来产生预测。对于每个预测，程度地位（x坐标）和锚定地位都是固定的，这能够通过将conv5中的空间窗口地位映射到输出图像上来事后计算。检测器输入每个窗口地位上的k个锚点的文本/非文本分数和预测的y坐标(v)。检测到的文本倡议是由文本/非文本得分为>0.7（具备非最大克制）的锚点生成的。通过设计的垂直锚定和精密尺度检测策略，检测器可能通过应用单尺度图像处理大尺度和长宽比的文本线。这进一步缩小了它的计算量，同时也预测了文本行的精确定位。与RPN或Faster R-CNN零碎相比，CTPN的精密尺度检测提供了更具体的监督信息，天然会导致更精确的检测。

Recurrent Connectionist Text Proposals：
为了进步定位精度，CTPN将一条文本线宰割成一系列精密尺度的文本倡议，并别离进行预测。显然，独立思考每一个孤立的倡议并不是不牢靠的。这可能会导致对与文本模式具备类似的构造的非文本对象进行大量的谬误检测，如窗口、砖块、叶子等。。也能够抛弃一些蕴含弱文本信息的歧义模式。图3（top）给出了几个例子。文本具备很强的程序特色，其中程序上下文信息对做出牢靠的决策至关重要。这曾经被最近的工作证实，其中一个循环神经网络（RNN）被利用于编码这个上下文信息，用于文本辨认。钻研结果表明，序列上下文信息极大地简化了裁剪词图像的辨认工作。RNN为常常应用它的暗藏层来编码这些信息提供了一个天然的抉择。为此，CTPN倡议在conv5上设计一个RNN层。

Side-refinement:CTPN能够精确、牢靠地检测到精密尺度的文本倡议。通过连贯文本/非文本得分为> 0.7的间断文本倡议，文本行结构很简略。文本行的结构如下。首先，当(i) Bj是间隔Bi最近的程度间隔，（ii）该间隔小于50像素，（iii）其垂直重叠时，CTPN将Bi（Bj）定义为> 0.7。其次，将两个倡议分为一对，如果Bj−> Bi和Bi−> Bj。而后，通过程序连贯具备雷同提议的成对来结构一条文本线。精密尺度检测和RNN连贯可能预测垂直方向上的精确定位。在程度方向上，图像被划分为一个等于16像素宽度的倡议序列。当程度两侧的文本提案没有被高空实在文本线区域齐全笼罩，或者一些边提案被抛弃（例如，文本得分较低）时，这可能会导致不精确的本地化，如图4所示

这种不准确性在个别的对象检测中可能不是要害的，但在文本检测中也不应被忽视，特地是对于那些小规模的文本行或单词。为了解决这个问题，CTPN提出了一种侧细化办法，该办法能够精确预计每个锚/计划在左右程度侧的地位（称为侧锚或侧倡议）的偏移量。与y坐标预测类似，计算绝对偏移量为:

其中，xside是间隔以后锚点最近的程度侧（例如，左侧或右侧）的预测x坐标。

是x轴上的实在（GT）边坐标，它是依据GT边界框和锚点地位事后计算出来的。

是x轴上锚的核心。瓦是锚的宽度，它是固定的，w a= 16。当CTPN将检测到的一系列检测到的精密文本倡议连贯到一个文本行时，侧倡议被定义为开始和完结倡议。CTPN只应用边倡议的偏移量来细化最终的文本行边界框。图4给出了几个通过侧细化改良的检测例子。侧边细化进一步提高了定位精度，导致SWT和多语言数据集的性能进步了约2%。

请留神，CTPN的模型同时预测了侧边细化的偏移量，如图1所示。它不是从一个额定的后处理步骤中计算出来的。试验后果：CPTN选用ICDAR2011、ICDAR 2013、ICDAR 2015、SWT和多语言数据集作为试验的数据集，失去了如下的试验后果。试验首先探讨了针对RPN和Faster R-CNN零碎的精密检测策略。如表1（左）所示，单个RPN很难执行准确的文本定位，因为它会产生大量谬误检测（精度低）。通过应用Fast R-CNN检测模型从新布局RPN计划，Faster R-CNN零碎大大提高了定位精度，F-measure值为0.75。一个察看后果是，Faster R-CNN也会减少对原始RPN的回顾。

这可能得益于Fast R-CNN的联结边界框回归机制，该机制进步了预测边界框的准确性。RPN提案可能粗略地本地化了文本行或单词的次要局部，但依据ICDAR 2013规范，这些提案不够精确。显然，拟议的精密文本提议网络（FTPN）在精确度和召回率方面显著进步了更快的R-CNN，这表明FTPN通过预测一系列精密文本提议而不是整个文本行，更加精确和牢靠。试验探讨了循环连贯对CTPN的影响。

如图3所示，上下文信息十分有助于缩小谬误检测，例如类文本异样值。这对于复原高度含糊的文本（例如，十分小的文本）十分重要，这是CTPN的次要劣势之一，如图6所示。这些吸引人的个性带来了显著的性能晋升。如表1（左）所示，通过循环连贯，CTPN将FTPN从F-measure值0.80大幅提高到0.88。运行工夫。通过应用单个GPU，CTPN（用于整个检测解决）的实现工夫约为每幅图像0:14s，短边为600。没有RNN连贯的CTPN大概须要0.13s/image GPU工夫。因而，所提出的网络内递归机制稍微减少了模型计算量，并取得了可观的性能增益。

图5显示了CTPN在几个挑战性图像上的检测后果。能够发现，CTPN在这些具备挑战性的状况下十分无效，其中一些状况对于以前的许多办法来说都很艰难。它可能高效地解决多尺度和多语言（如中文和韩文）。

试验对五个基准进行了全面评估。在不同的数据集中，图像分辨率有很大的不同。试验将SWT和ICDAR 2015的图像短边设置为2000，其余三个设置为600。试验将CTPN和最近颁布的几种办法进行了比拟。如表1和表2所示， CTPN在所有五个数据集上都达到了最佳性能。在SWT上，CTPN在召回率和F-measure上都有显著的改良，在精确度上略有进步。CTPN的检测器在多语言上对TextFlow体现良好，这表明CTPN的办法能够很好地推广到各种语言。在2013年ICDAR上，通过将F-measure从0.80进步到0.88，它的体现显著优于最近的TextFlow和FastText。

精度和召回率都有相当大的进步，别离进步了5%和7%以上。此外，试验还将CTPN与首次提交后公布的几种办法进行了进一步比拟。它在F-measure和召回方面一直获得实质性的改良。这可能是因为CTPN具备很强的检测极具挑战性的文本的能力，例如，十分小的文本，其中一些文本甚至对人类来说是不受欢迎的。如图6所示，CTPN检测器能够正确检测到那些具备挑战性的，但其中一些甚至被GT标记脱漏，这可能会升高CTPN的评估精度。试验进一步钻研了各种办法的运行工夫，如表2所示。

FASText达到0:15s/图像CPU工夫。通过取得0:14s/图像，CTPN的办法略快于它，但须要GPU工夫。尽管间接比拟它们并不偏心，但随着近年来深度学习办法在指标检测方面的巨大成功，GPU计算已成为支流。无论运行工夫如何，CTPN办法都大大优于FastText，F-measure进步了11%。CTPN能够通过应用较小的图像比例来缩小工夫。与Gupta等人应用GPU的0:07s/图像的办法进行了比拟。CTPN通过应用450的比例尺，它缩小到0:09s/图像，同时在ICDAR 2013上取得0.92/0.77/0.84的P/R/F。

论断：

连贯主义文本提议网络（CTPN）——一种高效的文本检测器，能够进行端到端的培训。CTPN间接在卷积映射中检测精密比例文本倡议序列中的文本行。CTPN开发了垂直锚机制，能够联结预测每个提案的准确地位和文本/非文本分数，这是实现文本精确定位的要害。CTPN提出了一个网络内RNN层，它优雅地连贯程序文本提议，容许它摸索有意义的上下文信息。这些关键技术的倒退导致了检测高度挑战性文本的弱小能力，谬误检测更少。

CTPN在五个基准上实现了最新的性能，每幅图像的运行工夫为0:14s，因而十分高效。

Seglink

CVPR2017的一篇论文《Detecting Oriented Text in Natural Images by Linking Segments》介绍了一种能够检测任意角度文本的检测算法，这种办法被称为Seglink。 SegLink的算法原理： SegLink次要思维是将文本合成为两个部分可检测的元素，即片段（宰割）和链接。

段是笼罩单词或文本行的一部分的定向框；一个链接连贯两个相邻的段，示意它们属于同一个单词或文本行。这两个元素都被一个端到端训练的全卷积神经网络在多个尺度上密集地检测到。最终的检测是通过联合由链接连贯的段而产生的。与以前的办法相比，SegLink在准确性、速度和训练的容易用性等方面都有所提高。在规范的ICDAR 2015附带性（挑战4）基准上，它达到了75.0%的f-mrasure，大大超过了之前的最佳指标。它在512×512图像上以超过20 FPS的速度运行。此外，SegLink可能检测长行非拉丁文本，如中文。

SegLink模型的次要思维：
SegLink的办法用前馈CNN模型检测文本。给定一个大小为wI×hI的输出图像I，该模型输入固定数量的片段和链接，而后通过它们的置信度分数进行过滤，并组合成整个单词边界框。边界框是一个旋转的矩形，用b=（xb，yb，yb，wb，hb，b）示意，其中xb，yb是核心的坐标，wb，hb是宽度和高度，b是旋转角。 SegLink模型的网络结构如下：

该模型以VGG16作为网络的次要骨干，将其中的全连贯层（fc6, fc7）替换成卷积层（conv6, conv7），前面再接上4个卷积层（conv8, conv9, conv10, conv11），其中，将conv4_3，conv7，conv8_2，conv9_2，conv10_2，conv11这6个层的feature map（特色图）拿进去做卷积失去segments（切片）和links（链接）。这6个层的feature map（特色图）尺寸是不同的，每一层的尺寸只有前一层的一半，从这6个不同尺寸的层上失去segment和link，就能够实现对不同尺寸文本行的检测了（大的feature map善于检测小物体，小的feature map善于检测大物体）。

segments检测：segment也是有方向的边界框，用s =（xs、ys、ws、hs、s）示意。SegLink通过预计输出图像上的一组默认框的置信度分数和几何偏移量来检测片段。每个默认框都与一个特色地图地位相关联，它的分数和偏移量能够从该地位的特色中预测进去。为简略起见，SegLink只将一个默认框与一个特色映射地位关联起来。 links检测在segment与segment的link（链接）方面，次要存在两种状况，一种是层内链接检测（Within-Layer Link Detection）、另一种是跨层链接检测（Cross-Layer Link Detection）。如下图：

Within-Layer Link Detection：
层内链接检测示意同一特色层，每个segment与8邻域内的segment的连贯情况，链接不仅是将片段组合成整个单词的必要条件，而且还有助于拆散两个相邻的单词——在两个相邻的单词之间，链接应该被预测为负的。

Cross-Layer Link Detection：
Seglinks网络中，在不同的特色层上以不同的尺度检测到片段。每一层都能够解决一系列的尺度。Seglinks使这些范畴重叠，以防止错过它们边缘的尺度。但后果是，同一单词的片段能够同时在多层上检测到，从而产生冗余。为了解决这个问题，Seglinks进一步提出了另一种类型的链接，称为跨层链接。一个跨层链接将两个特色层上的段依照相邻的索引连接起来。合并算法合并算法的思维如下：前馈后，网络产生许多段和链路（数量取决于图像大小）。

在组合之前，输入片段和链接将通过它们的置信度分数进行过滤。别离为分段和链接设置了不同的过滤阈值，即和。将每个segment看成node，link看成edge，建设图模型，而后，在图上执行深度优先搜寻（DFS），以找到其连贯的组件。每个组件都蕴含一组由链接连贯的段。用B示意一个连贯的组件，该组件中的段依照Alg1中的程序进行组合。Alg1算法其实就是一个均匀的过程。先计算所有的segment的均匀作为文本行的，再依据已求的为已知条件，求出最可能过每个segment的直线（线段，这里线段就是以segment最左和最右的为边界），以线段中点作为word的中心点（x,y），最初用线段长度加上首尾segment的均匀宽度作为word的宽度，用所有segment的高度的均匀作为word的高度。

试验后果：
Seglink应用三个公共数据集（即ICDAR 2015附带文本（挑战4）、MSRA-TD500和ICDAR 2013）和规范评估指标，对办法进行试验失去了如下几张表的试验后果。首先是在ICDAR 2015 Incidental Text上的试验后果。表1列出并比拟了拟议办法和其余最先进办法的后果。一些后果来自在线排行榜。

SegLink的体现大大优于其余办法。就f-measure而言，它的体现比第二好的高10.2%。思考到某些办法的精度靠近甚至高于SegLink，改良次要来自Recall。如图6所示，Seglink的办法可能从十分芜杂的背景中辨别文本。此外，因为其明确的链接预测，SegLink能够正确地拆散彼此十分靠近的单词。

在数据集MSRA-TD500的试验数据如表2所示：依据表2，SegLink在精度和f-测量方面得分最高。得益于其齐全卷积设计，SegLink的运行速度为8.9 FPS，比其余产品快很多。SegLink也很简略。SegLink的推理过程是检测网络中的一个前向传递，而之前的办法【《Detecting texts of arbitrary orientations in natural images》、《Robust text detection in natural scene images》、《Multi-oriented text detection with fully convolutional networks.》】波及简单的基于规定的分组或过滤步骤。 TD500蕴含许多混合语言（英语和汉语）的长文本行。

图7显示了SegLink如何解决此类文本。能够看到，段和链接沿着文本线密集检测。它们会产生很长的边界框，很难从传统的对象检测器中取得。只管中英文文本在外观上存在微小差别，但SegLink可能同时解决它们，而无需对其构造进行任何批改。

Seglink在数据集IC13上的试验后果如表3所示。表3将SegLink与其余最先进的办法进行了比拟。分数由地方提交零碎应用“Deteval”评估协定计算。SegLink在f-measure方面获得了十分有竞争力的后果。只有一种办法在f-度量方面优于SegLink。然而，该次要用于检测程度文本，不太适宜定向文本。就速度而言，SegLink在512×512图像上的运行速度超过20 FPS，比其余办法快得多。

局限性：SegLink的一个次要限度是须要手动设置两个阈值，和。在理论利用中，通过网格搜寻能够找到了阈值的最优值。简化这些参数将是seglink将来工作的一部分。另一个毛病是，SegLink无奈检测到字符间距十分大的文本。图8.a、b显示了这两种状况。检测到的链接连贯相邻的段，但无奈连贯边远的段。总结：SegLink提出一种新的文本检测策略，由一个简略和高效的CNN模型实现。在程度方向、面向方向和多语言的文本数据集上的优越性能很好地证实了SegLink是精确、疾速和灵便的。在将来，将进一步摸索其在检测蜿蜒文本等变形文本方面的后劲。此外，钻研人员还想将SegLink扩大到一个端到端识别系统。

参考文献：Liu C Y, Chen X X, Luo C J, Jin L W, Xue Y and Liu Y L. 2021. Deep learning methods for scene text detection and recognition. Journal of Image and Graphics,26(06):1330-1367(刘崇宇,陈晓雪,罗灿杰,金连文,薛洋,刘禹良. 2021. 天然场景文本检测与辨认的深度学习办法. 中国图象图形学报,26(06):1330-1367)[DOI:10. 11834 / jig. 210044] Tian Z, Huang W L, He T, He P and Qiao Y. 2016. Detecting text in natural image with connectionist text proposal network / / Proceedings of the 14th European Conference on Computer Vision. Amsterdam, The Netherlands: Springer: 56-72 [ DOI: 10. 1007 / 978-3-319- 46484-8_4] Shi B G, Bai X and Belongie S. 2017b. Detecting oriented text in natural images by linking segments/ / Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 2550-2558 [DOI: 10. 1109 / CVPR. 2017. 371] Ren S Q, He K M, Girshick R B and Sun J. 2015. Faster R-CNN: towards real-time object detection with region proposal networks/ / Proceedings of 2015 Annual Conference on Neural Information Processing Systems. Montreal, Canada: [s. n. ]:91-99Girshick, R.: Fast r-cnn (2015), in IEEE International Conference on Computer Vision (ICCV) R. B. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In CVPR, 2014