关于人工智能:文本检测与识别白皮书32第三节常用的文本识别模型

3.2.3 罕用的文本辨认模型

CRNN

2017年华中科技大学在发表的论文《An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition》提出了一个辨认文本的办法，这种办法就是CRNN。该模型次要用于解决基于图像的序列辨认问题，特地是场景文本辨认问题。

CRNN算法原理：

CRNN的网络架构如图1所示，由卷积层、循环层和转录层三个组成部分组成。在CRNN的底部，卷积层主动从每个输出图像中提取一个特色序列。在卷积网络的根底上，建设一个递归网络，由卷积层输入，对特色序列的每一帧进行预测。采纳CRNN顶部的转录层，将循环层的每帧预测转化为标签序列。尽管CRNN是由不同类型的网络架构组成的。CNN和RNN)，它能够用一个损失函数进行联结训练。文本辨认是对序列的预测办法，所以采纳了对序列预测的RNN网络。通过CNN将图片的特征提取进去后采纳RNN对序列进行预测，最初通过一个CTC的转录层失去最终后果。

所以CRNN算法次要采纳的是CNN+RNN+CTC三层网络结构，从下到上，顺次为：
（1）卷积层，应用CNN，从输出图像中提取特色序列；
（2）循环层，应用RNN，预测从卷积层获取的特色序列的标签（实在值）散布；
（3）转录层，应用CTC，把从循环层获取的标签散布通过去重整合等操作转换成最终的辨认后果。

1.CNN（即卷积层）

在CRNN模型中，卷积层的重量是通过从规范CNN模型中提取卷积层和最大池化层（去掉全连贯层）。该组件用于从输出图像中提取序列特色示意。在被输出网络之前，所有的图像都须要缩放到雷同的高度。而后从卷积层的重量生成的特色映射中提取出一个特征向量序列，作为递归层的输出。具体来说，特色序列的每个特征向量在特色映射上从左到右顺次生成。这意味着第i个特征向量是所有映射的第i个列的连贯。在CRNN的设置中，每一列的宽度都被固定为单个像素。这意味着第i个特征向量是所有映射的第i个列的连贯。在CRNN的设置中，每一列的宽度都被固定为雷同像素。

因为卷积层、最大池化层和元素激活函数层作用于部分区域，因而它们是平移不变的。因而，特色映射的每一列对应原始图像的矩形区域（称为承受域），这些矩形区域与特色映射上对应列的排列程序雷同。如图2所示，特色序列中的每个向量都与一个感触域相关联，能够思考作为该区域的图像描述符。

2.RNN（即循环层）

一个深度双向递归神经网络建设在卷积层的顶部，作为递归层。循环层预测特色序列x = x1，……，xt中每一帧xt的标签散布yt。循环层的长处有三方面。首先，RNN具备很强的捕捉序列中的上下文信息的能力。应用上下文线索进行基于图像的序列辨认比独立解决每个符号更稳固和更有帮忙。以场景文本辨认为例，宽字符可能须要间断几帧进行充沛形容（参见图2）。此外，一些含糊的字符在察看上下文时更容易辨别，例如，比照角色高度更容易辨认“il”，而不是独自辨认“il”。其次，RNN能够将误差差分反向流传到其输出端，即卷积层，容许咱们在一个对立的网络中联结训练循环层和卷积层。

LSTM是定向的，它只应用过来的上下文。在基于图像的序列中，两种办法的上下文是有用的和互补的。而后，CRNN将两个LSTM，一个向前，一个向后，组合成一个双向LSTM。此外，能够重叠多个双向LSTM，产生深度双向LSTM，如图3.b所示。深度构造比浅层构造具备更高层次的抽象性，并在语音辨认[17]工作中获得了显著的证实性能。在循环层中，误差差分与图3.b所示的箭头方向相同，即工夫反向流传（BPTT）。在循环层的底部，将流传的差分序列连接成映射，将特色映射转换为特色序列的操作，并反馈到卷积层。在实践中，咱们创立了一个自定义的网络层，称为“映射到序列”，作为卷积层和循环层之间的桥梁。

3.CTC（即转录层或翻译层）

转录是将RNN对每帧的预测转换为标签序列的过程。在数学上，转录是指在每帧预测的条件下找到具备最高概率的标签序列。在实践中，存在两种转录模式，即无词汇的转录和基于词汇的转录。词典是预测所束缚的一组标签序列，例如一个拼写查看字典。在无词汇模式下，没有任何词汇即可进行预测。在基于词汇的模式下，通过抉择概率最高的标签序列来进行预测。

试验后果：
CRNN抉择Synth作为模型训练的数据集，抉择ICDAR 2003(IC03), ICDAR 2013 (IC13), IIIT 5k-word (IIIT5k), 和Street View Text (SVT)作为测试数据。其中IC03测试数据集蕴含251个带有标记文本边界框的场景图像。IC13测试数据集继承了IC03的大部分数据。它蕴含1015个通过裁剪的单词图像。IIIT5k蕴含从互联网上收集的3000张通过裁剪的单词测试图像。SVT测试数据集由从Google street view收集的249张街景图像组成。

表2显示了通过提议的CRNN模型和最新技术（包含基于深度模型的办法）取得的上述四个公共数据集的所有辨认精度【（《Deep features for text spotting》）、（《Reading text in the wild with convolutional neural networks.》）、（《Deep structured output learning for unconstrained text recognition.》）】。在词汇受限的状况下，CRNN的办法始终优于大多数最先进的办法，并且均匀优于[22]中提出的最佳文本阅读器。具体而言，CRNN在IIIT5k上取得了优异的性能，SVT与《Reading text in the wild with convolutional neural networks.》相比，在IC03上只有“残缺”词典的性能较低。

请留神，《Reading text in the wild with convolutional neural networks.》中的模型是在特定词典上训练的，即每个单词都与一个类标签相关联。与《Reading text in the wild with convolutional neural networks.》不同，CRNN不局限于辨认已知词典中的单词，并且可能解决随机字符串（如电话号码）、句子或其余脚本，如中文单词。因而，CRNN的后果在所有测试数据集上都具备竞争力。在无约束词典的状况下，CRNN的办法在SVT上获得了最好的性能，但依然落后于IC03和IC13上的一些办法。请留神，表2“无”列中的空白示意这种办法无奈利用于没有词典的辨认，或者在无约束的状况下没有报告辨认精度。CRNN的办法仅应用带有单词级标签的合成文本作为训练数据，这与PhotoOCR十分不同，后者应用790万个带有字符级正文的实在单词图像进行训练。文献《Reading text in the wild with convolutional neural networks.》报告的最佳性能是在无约束词典的状况下，得益于其大词典，然而，它并不是后面提到的对词典严格无约束的模型。从这个意义上讲，CRNN在无约束词典案例中的后果依然很有心愿。失去的试验后果如下：

论断：

提出了一种新的神经网络构造，称为卷积递归神经网络（CRNN），它综合了卷积神经网络（CNN）和递归神经网络（RNN）的长处。CRNN可能获取不同尺寸的输出图像，并生成不同长度的预测。例如，在每个阶段中，每个具体元素都会间接运行（例如，在每个阶段中，每个具体元素都会运行正文）。

此外，因为CRNN放弃了传统神经网络中应用的齐全连贯层，因而能够失去更紧凑、更高效的模型。所有这些个性使得CRNN成为基于图像的序列辨认的一种优良办法。在场景文本辨认基准上的试验表明，与传统办法以及其余基于CNN和RNN的算法相比，CRNN获得了优越或极具竞争力的性能。这证实了该算法的优越性。此外，在光学音乐辨认（OMR）的基准测试中，CRNN显著优于其余竞争对手，这验证了CRNN的通用性。

因而，CRNN实际上能够利用于其余畛域的汉字辨认。进一步放慢CRNN的速度，使其在理论利用中更加实用，是将来值得摸索的另一个方向。

TextSnake

2018年的论文《TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes 》提出了一种灵便的任意形态场景文本检测办法TextSnake。
其次要奉献有三个方面：
（1）提出了一种灵便的任意形态场景文本的通用示意办法；
（2）在此基础上，提出了一种无效的场景文本检测办法；
（3）提出的文本检测算法在多个基准上实现了最先进的性能，包含不同模式（程度、定向和蜿蜒）的文本实例

现有文本检测办法有一个独特的假如：
本实例的形态大体上是线性的；因而采纳绝对简略的表征办法(轴对齐矩形、旋转矩形四边形)；解决不规则形态的文本实例时，仍然会裸露问题；对于带有透视变形(perspective distortion)的曲形文本(curved text)传统办法在准确预计的几何属性方面力不从心；文本实例不同表征办法的比照，图a是轴对齐矩形，图b是旋转矩形，图c是四边形；图d是TextSnake。

TextSnake算法原理：

TextSnake图示

如图1所示，场景文本的惯例示意（如轴对齐矩形、旋转矩形和四边形）不能准确形容不规则形态的文本实例的几何属性，因为它们通常假如文本实例大抵为线性模式，这对于曲线文本不成立。为了解决这个问题，提出了一个灵便的和通用的办法：TextSnake。如图2所示，TextSnake将一个文本实例示意为一个重叠的圆盘序列，每个圆盘都位于中心线上，并与一个半径和一个方向相关联。直观地说，TextSnake可能扭转其形态，以适应文本实例的变动，如旋转、缩放和蜿蜒。

从数学上讲，由几个字符组成的文本实例t能够视为一个有序列表S (t)。S (t) = {D0、D1、···、Di、···、Dn}，其中Di代表第i个圆盘，n为圆盘的数量。每个圆盘D都与一组几何属性相关联，即D =（c、r、），其中c、r和别离为圆盘D的核心、半径和方向。半径r定义为其部分宽度t的一半，而方向是中心线围绕核心c的切向方向。在这个意义上，通过计算S (t)中圆盘的并集，能够很容易地重建文本区域t。

请留神，圆盘与t对应的字符不统一。然而，S (t)中的几何属性能够用于修改不规则形态的文本实例，并将其转换为矩形的直形图像区域，这对文本识别器更敌对

办法Pipeline：

为了检测具备任意形态的文本，TextSnake应用了一个FCN模型来预测文本实例的几何属性。该办法的管道流程如图3所示。基于FCN的网络预测文本中心线（TCL）和文本区域（TR）的得分图，以及几何属性，包含r、cos和sin。TCL map被TR map进一步覆盖，因为TCL天然是TR的一部分。为了执行实例宰割，鉴于TCL彼此不重叠，应用不相交集。采纳跨越式算法提取中轴点列表，最初对文本实例进行重构。

网络架构：

整个网络如图4所示。受FPN和U-net的启发，TextSnake采纳了一种逐渐合并主网络不同档次特色的计划。骨干网络能够是被提出的用于图像分类的卷积网络，如VGG-16/19和ResNet。这些网络能够分为5个卷积阶段和一些额定的全连贯（FC）层。TextSnake删除FC层，并在每个阶段后将特色映射提供给特色合并网络。TextSnake抉择VGG-16作为骨干网络，以便与其余办法进行间接偏心的比拟。

推理：

馈送之后，网络输入TCL，TR以及几何图，对于TCL和TR，阈值别离设为Ttcl和Ttr，而后，通过TR和TCL的交点，给出了TCL的最终预测。应用不相交集，能够无效地将TCL像素拆散为不同的文本实例。

最初，设计了一种跨步算法，提取出示意文本实例的形态和过程的有序点列表，并对文本实例区域进行重构。采纳两种简略的启发式办法来过滤出false positive文本实例：1)TCL像素的数量应至多为其均匀半径的0.2倍；2)在重建的文本区域中，至多有一半的像素应该被归类为TR。

跨步算法的执行过程如图5所示。它具备3个次要动作，即Act (a)、Act (b)和Act (c)，如图6所示。首先，随机抉择一个像素作为终点，并将其集中起来。而后，搜寻过程分叉到两个相同的方向，大步后退和集中化，直到它达到起点。这个过程将在两个相同的方向上生成两个有序的点列表，它们能够组合起来产生最终的核心轴列表，它遵循文本的过程，并准确地形容形态。这3个动作的细节如下所示

试验后果：

本文中用于试验的数据集如下：
SynthText是一个大型sacle数据集，蕴含约800K个合成文本图像。这些图像是通过将天然图像与随机字体、大小、色彩和方向出现的文本混合而成的，因而这些图像十分真切。咱们应用这个数据集对模型进行预训练。

TotalText是一个新公布的文本检测基准。除了程度和面向多个方向的文本实例之外，该数据集还特地具备曲线文本，这在其余基准数据集中很少呈现，但实际上在理论环境中十分常见。该数据集分为训练集和测试集，别离蕴含1255张和300张图像。

CTW1500是另一个次要由曲线文本组成的数据集。它由1000个训练图像和500个测试图像组成。文本实例应用具备14个顶点的多边形进行正文。

ICDAR 2015被提议作为Challenge 4 of the 2015 Robust Reading Competition中偶尔场景文本检测的挑战4。该数据集中的场景文本图像由谷歌眼镜拍摄，不思考地位、图像品质和视点。该数据集具备小的、含糊的、多方向的文本实例。有1000张图片用于培训，500张图片用于测试。此数据集中的文本实例标记为单词级四边形。MSRA-TD500是一个具备多语言、任意定向和长文本行。它包含300个训练图像和200个带有文本的测试图像行级正文。在之前的工作[3,10]之后，试验还将来自HUST-TR400[39]的图像作为训练数据，在对该数据集进行调整时，因为其训练集十分小。

在ICDAR 2015和MSRA-TD500上的试验中，试验依据办法的输入文本区域确定了最小边界矩形。失去了如下图示的试验后果：为了进行比拟，Textsnake还对Total Text和CTW1500上的EAST和SegLink模型进行了评估。表1和表2显示了这两个数据集上不同办法的定量后果。

如表1所示，TextSnake所提出的办法在总文本的准确率、召回率和F-measure上别离达到82.7%、74.5%和78.4%，显著优于以前的办法。请留神，TextSnake办法的F- measure是原始Total Text论文[12]中提供的Baseline的两倍以上。

在CTW1500上，该办法的准确率、召回率和F-measure别离达到67.9%、85.3%和75.6%。与CTW1500数据集一起提出的CTD+TLOC相比，TextSnake算法的F-measure高出2.2%（75.6%对73.4%）。该办法在全文本和CTW1500上的优异性能验证了该办法可能解决天然图像中的曲线文本。

ICDAR 2015的微调将在大概30k次迭代时进行。在测试中，所有图像的大小都调整为1280×768。Ttr、Ttcl设置为（0.4、0.9）。思考到ICDAR 2015中的图像蕴含许多未标记的小文本，将过滤掉短边小于10像素或面积小于300的预测矩形。ICDAR 2015上不同办法的定量后果如表3所示。仅通过单尺度测试，TextSnake的办法优于大多数竞争对手（包含多尺度评估的办法）。这表明所提出的示意TextSnake是通用的，能够很容易地利用于简单场景中的面向多个方向的文本。

MSRA-TD500上的微调将在大概10k次迭代时进行。Ttr、Ttcl的阈值为（0.4、0.6）。在测试中，所有图像的大小都调整为1280×768。后果如表4所示，TextSnake办法的F- Measure（78.3%）高于其余办法。

剖析与探讨：TextSnake的办法与其余办法的区别在于，它可能预测文本实例的形态和过程的准确形容（见图8）。

TextSnake将这种能力归因于TCL机制。文本中心线能够看作是一种撑持文本实例的骨架，以及提供更多细节的天文属性。文本，作为一种书面语言的模式，能够看作是一个映射到二维外表上的信号流。当然，它应该遵循一条须要延长的路线。因而，TextSnake倡议预测TCL，它比整个文本实例要窄得多。它有两个长处： (1)一个修长的TCL能够更好地形容过程和形态；(2)直观地看，TCL彼此不重叠，因而实例宰割能够以一种非常简单和间接的形式实现，从而简化了TextSnake的pipeline。此外，如图9所示，TextSnake能够利用部分几何图形来绘制文本实例的构造，并将预测的蜿蜒文本实例转换为标准模式，这可能在很大水平上促成了辨认阶段

为了进一步验证TextSnake的办法的泛化能力，在没有蜿蜒文本的数据集上训练和微调TextSnake的模型，并在两个具备蜿蜒文本的基准测试上对其进行评估。具体来说，在ICDAR 2015上调整了TextSnake的模型，并在指标数据集上对它们进行了评估。咱们以EAST 、SegLink 和PixelLink 的模型作为baseline，因为这两种办法也在ICDAR 2015上进行了训练。

如表5中所示，TextSnake的办法在蜿蜒文本上依然体现良好，并且显著优于三个弱小的竞争对手SegLink，EAST和PixelLink，而没有对蜿蜒文本进行微调。TextSnake将这种优良的泛化能力归因于所提出的灵便示意。示意不是将文本作为一个整体，而是将文本视为部分元素的汇合，并将它们集成在一起以做出决策。部分属性在造成一个整体时被保留。此外，它们是互相独立的。因而，TextSnake的办法的最终预测能够保留文本的形态和过程的大部分信息。这是所提出的文本检测算法可能搜寻具备不同形态的文本实例的次要起因。

论断：
TextSnake提出了一种新鲜、灵便的示意办法，用于形容具备任意形态的场景文本的属性，包含程度、多向和曲线文本实例。TextSnake提出的文本检测办法在两个新公布的曲线文本数据集（Total text和SCUT-CTW1500）以及两个在该畛域宽泛应用的数据集（ICDAR 2015和MSRA-TD500）上取得了最先进或可比的性能，证实了办法的有效性。

EAST
2017年的论文《EAST: An Efficient and Accurate Scene Text Detector》提出了一个高效和精确的场景文本检测pipeline文本检测模型EAST。典型的文本检测模型个别是会分多个阶段（multi-stage）进行，在训练时须要把文本检测切割成多个阶段（stage）来进行学习，这种把残缺文本行先宰割检测再合并的形式，既影响了文本检测的精度又十分耗时，对于文本检测工作上两头过程解决得越多可能成果会越差。那么当初咱们来学习又快、又准的检测模型。

EAST的奉献：
1.提出了一个由两阶段组成的场景文本检测办法：全卷积网络阶段和NMS阶段。
2.该pipeline可灵便生成word level或line level上文本框的预测，预测的几何形态可为旋转框或程度框。
3.算法在准确性和速度上优于此前最先进的办法。

EAST算法原理：
EAST模型简介该算法的要害组成部分是一个神经网络模型，它被训练来间接从残缺的图像中预测文本实例及其几何形态的存在。该模型是一个齐全卷积的神经网络，实用于文本检测，它能够输入对单词或文本线的密集的每像素预测。该模型是一个齐全卷积的神经网络，实用于文本检测，它能够输入对单词或文本行的密集的每像素预测。这就打消了诸如候选提案、文本区域的造成和文字的划分等两头步骤。后处理步骤只包含对预测的几何形态的阈值化和NMS。该探测器被称为EAST，因为它是一个高效和准确的场景文本检测pipeline。

图2(e)显示了EAST的管道的高级概述。该算法遵循DenseBox 的个别设计，将图像输出FCN，生成多个像素级文本评分图和几何图形通道。其中一个预测的通道是一个像素值在[0,1]范畴内的评分图。其余的通道示意蕴含在每个像素视图中的单词的几何图形。这个分数代表了在同一地位上预测的几何形态的置信度。EAST试验了文本区域的两种几何形态，旋转框（RBOX）和四边形（QUAD），并为每个几何图形设计了不同的损失函数。而后将阈值利用于每个预测区域，其中分数超过事后定义的阈值的几何图形被认为是无效的，并保留为当前的非最大克制。NMS之后的后果被认为是管道的最终输入。

EAST模型网络结构EAST模型的网络结构，如下图：

在设计用于文本检测的神经网络时，必须思考到几个因素。因为单词区域的大小，如图5所示，变化很大，确定大单词的存在须要神经网络前期的特色，而预测蕴含一个小单词区域的精确几何形态在晚期阶段须要低水平的信息。

因而，网络必须应用来自不同级别的个性来满足这些需要。HyperNet在特色图上满足这些条件，但在大型特色图上合并大量通道将显著减少前期阶段的计算耗费。为此，咱们采纳u型的思维，逐渐合并特色图，同时放弃上采样分支较小。咱们一起失去了一个网络，它既能够利用不同级别的个性，又能够放弃较小的计算成本。

咱们的模型的示意图如图3所示。该模型可分解为特征提取骨干、特色合并分支和输入层三局部。骨干能够是一个在ImageNet 数据集上事后训练好的卷积网络，具备交织的卷积层和池化层。从骨干中提取出四级特色图，别离示意为fi，其大小别离为输出图像的1/32、1/16、1/8和1/4。图3中形容为PVANet 。在试验中，咱们还采纳了家喻户晓的VGG16 模型，其中提取了pooling-2到pooling-5之后的特色映射。在特色合并分支中，咱们逐渐合并它们：

其中gi是合并基，hi是合并的特色映射，操作符[·；·]示意沿通道轴的连贯。在每个合并阶段中，来自最初一个阶段的特色映射首先被输出到一个非池化层，以使其大小加倍，而后与以后的特色映射相连接。接下来，一个conv1×1瓶颈缩小了通道的数量并缩小了计算，而后是一个conv3×3，它交融信息，最终产生这个合并阶段的输入。在最初一个合并阶段之后，一个conv3×3层生成合并分支的最终特色图，并将其提供给输入层。每个卷积的输入通道数如图3所示。咱们放弃分支中卷积的通道数很小，这只减少了骨干上的一小部分计算耗费，使网络的计算效率很高。最终的输入层蕴含几个conv1×1操作，以将32个通道的特色映射投影到1个通道的分数映射Fs和一个多通道几何映射Fg中。几何输入能够是RBOX或QUAD中的一个，在表1中总结。

对于RBOX，几何形态由4个通道的轴对齐的边界框（AABB）R和1个通道的旋转角度示意。R的公式与（《Unifying landmark localization with end to end object detection》）雷同，其中4个通道别离示意从像素地位到矩形的上、右、下、左边界的4个间隔。对于QUAD Q，应用8个数字来示意从四边形的四个角顶点{pi|i∈{1,2,3,4}}到像素地位的坐标位移。因为每个间隔偏移量蕴含两个数字（∆xi，∆yi），因而几何图形输入蕴含8个通道。标签生成（Label generation）Score Map Generation for Quadrangle：只思考几何是四边形的状况。得分图上的四边形的正面积大抵被设计为原始地图的放大版本，如图4 (a).所示对于一个四边形Q = {pi|i∈{1,2,3,4}}，其中pi = {xi，yi}是按顺时针程序在四边形上的顶点。为了放大Q，首先计算每个顶点p的参考长度ri为

式中，D（pi，pj）是pi和pj之间的l2间隔。咱们首先放大一个四边形的两条较长的边，而后放大那两个较短的边。对于每一对两个相同的边，咱们通过比拟它们的长度的平均值来确定“较长的”对。对于每条边< pi，p（i mod 4）+1i >，咱们通过沿边挪动其两个端点向内别离挪动0.3ri和0.3r（i mod 4）+1来膨胀它。Geometry Map Generation：

几何图是RBOX或QUAD之一。RBOX的生成过程如图4（c-e）所示。对于那些文本区域以QUAD格调进行正文的数据集（例如，ICDAR 2015），咱们首先生成一个旋转的矩形，它笼罩了具备最小面积的区域。而后对于每个得分为正的像素，咱们计算它到文本框的4个边界的间隔，并将它们放到RBOX高空假相的4个通道中。对于QUAD高空假相，在8通道几何地图中每个得分为正的像素的值是它从四边形的4个顶点的坐标偏移。

试验后果：

定性后果:

图5形容了该算法的几个检测示例。它可能解决各种具备挑战性的场景，如不平均的照明，低分辨率，不同的方向和透视失真。此外，因为NMS过程中的投票机制，所提出的办法在具备不同模式的文本实例的视频上显示出较高的稳定性2。该办法的两头后果如图6所示。能够看出，训练后的模型产生了高度准确的几何图和得分图，其中很容易检测出不同方向的文本实例。

定量后果：

如表3和表4所示，EAST的办法在IC-DAR 2015和COCO文本上大大优于以前的最先进办法。在ICDAR 2015挑战4中，当图像以原始比例馈送时，所提出的办法的F -score达到0.7820。当应用同一网络在多个量表3上进行测试时，EAST的办法的F-score达到0.8072，就绝对值而言，这比最佳办法高出了近0.16（0.8072 vs.0.6477）。比拟应用VGG16网络的后果，当应用四路输入时，该办法的性能也比之前的最佳工作好0.0924，当应用RBOX输入时，该办法的性能也比之前的最佳工作好0.116。

同时，这些网络的效率相当高。在COCO text中，所提出的算法的所有三种设置都比之前的top-performer（《Scene text detection via holistic, multi-channel prediction. 》）具备更高的精度。具体而言，F -score比（《Scene text detection via holistic, multi-channel prediction. 》）进步了0.0614，召回得分进步了0.053，这证实了该算法的劣势，因为COCO text是迄今为止最大、最具挑战性的基准。请留神，试验还将（《Coco-text: Dataset and benchmark for text detection and recognition in natural images. 》）中的后果作为参考，但这些后果实际上不是无效的Baseline，因为办法（A、B和C）用于数据正文。与以前的办法相比，该算法的改良证实了一个简略的文本检测pipeline，它间接针对最终目标并打消冗余过程，能够击败简单的pipeline，甚至是那些与大型神经网络模型集成的pipeline。

如表5所示，在MSRA-TD500上，EAST办法的所有三种设置都获得了优异的后果。最佳工作的F-score（Ours+PVANET2x）略高于《Scene text detection via holistic, multi-channel prediction. 》。与之前公布的最先进零碎Zhang等人（《Multi-oriented text detection with fully convolutional networks》）的办法相比，最佳执行者（Ours+PVANET2x）的F-score进步了0.0208，精确度进步了0.0428。

请留神，在MSRA-TD500上，装备VGG16的算法的性能比装备PVANET和PVANET2x的算法差得多（0.7023比0.7445和0.7608），次要起因是VGG16的无效感触野小于PVANET和PVANET2x的无效感触野，而MSRA-TD500的评估协定须要文本检测算法的输入行级别，而不是单词级别的预测。此外，试验还依据ICDAR 2013基准评估了Ours+PVANET2x。该办法在查全率、查准率和F得分方面别离达到0.8267、0.9264和0.8737，与之前的最先进办法相比，前者的查全率、查准率和F得分别离为0.8298、0.9298和0.8769。

EAST模型的劣势在于简洁的检测过程，高效、精确，并能实现多角度的文本行检测。但也存在着不足之处，例如（1）在检测长文本时的成果比拟差，这次要是因为网络的感触野不够大；（2）在检测曲线文本时，成果不是很现实

参考文献：
Liu C Y, Chen X X, Luo C J, Jin L W, Xue Y and Liu Y L. 2021. Deep learning methods for scene text detection and recognition. Journal of Image and Graphics,26(06):1330-1367(刘崇宇,陈晓雪,罗灿杰,金连文,薛洋,刘禹良. 2021. 天然场景文本检测与辨认的深度学习办法. 中国图象图形学报,26(06):1330-1367)[DOI:10. 11834 / jig. 210044] Shi B G, Bai X and Yao C. 2017a. An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(11): 2298-2304 [DOI: 10. 1109 / TPA-MI. 2016. 2646371]Zhou X Y, Yao C, Wen H, Wang Y Z, Zhou S C, He W R and Liang J J. 2017. EAST: an efficient and accurate scene text detector/ / Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 5551-5560 [DOI: 10. 1109 / CVPR. 2017. 283] Long S B, Ruan J Q, Zhang W J, He X, Wu W H and Yao C. 2018. TextSnake: a flexible representation for detecting text of arbitrary shapes/ / Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer: 19-35 [DOI: 10. 1007 / 978-3-030-01216-8_2]