共计 12719 个字符,预计需要花费 32 分钟才能阅读完成。
3.2.3 罕用的文本辨认模型
CRNN
2017 年华中科技大学在发表的论文《An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition》提出了一个辨认文本的办法,这种办法就是 CRNN。该模型次要用于解决基于图像的序列辨认问题,特地是场景文本辨认问题。
CRNN 算法原理:
CRNN 的网络架构如图 1 所示,由卷积层、循环层和转录层三个组成部分组成。在 CRNN 的底部,卷积层主动从每个输出图像中提取一个特色序列。在卷积网络的根底上,建设一个递归网络,由卷积层输入,对特色序列的每一帧进行预测。采纳 CRNN 顶部的转录层,将循环层的每帧预测转化为标签序列。尽管 CRNN 是由不同类型的网络架构组成的。CNN 和 RNN),它能够用一个损失函数进行联结训练。文本辨认是对序列的预测办法,所以采纳了对序列预测的 RNN 网络。通过 CNN 将图片的特征提取进去后采纳 RNN 对序列进行预测,最初通过一个 CTC 的转录层失去最终后果。
所以 CRNN 算法次要采纳的是 CNN+RNN+CTC 三层网络结构,从下到上,顺次为:
(1)卷积层,应用 CNN,从输出图像中提取特色序列;
(2)循环层,应用 RNN,预测从卷积层获取的特色序列的标签(实在值)散布;
(3)转录层,应用 CTC,把从循环层获取的标签散布通过去重整合等操作转换成最终的辨认后果。
1.CNN(即卷积层)
在 CRNN 模型中,卷积层的重量是通过从规范 CNN 模型中提取卷积层和最大池化层(去掉全连贯层)。该组件用于从输出图像中提取序列特色示意。在被输出网络之前,所有的图像都须要缩放到雷同的高度。而后从卷积层的重量生成的特色映射中提取出一个特征向量序列,作为递归层的输出。具体来说,特色序列的每个特征向量在特色映射上从左到右顺次生成。这意味着第 i 个特征向量是所有映射的第 i 个列的连贯。在 CRNN 的设置中,每一列的宽度都被固定为单个像素。这意味着第 i 个特征向量是所有映射的第 i 个列的连贯。在 CRNN 的设置中,每一列的宽度都被固定为雷同像素。
因为卷积层、最大池化层和元素激活函数层作用于部分区域,因而它们是平移不变的。因而,特色映射的每一列对应原始图像的矩形区域(称为承受域),这些矩形区域与特色映射上对应列的排列程序雷同。如图 2 所示,特色序列中的每个向量都与一个感触域相关联,能够思考作为该区域的图像描述符。
2.RNN(即循环层)
一个深度双向递归神经网络建设在卷积层的顶部,作为递归层。循环层预测特色序列 x = x1,……,xt 中每一帧 xt 的标签散布 yt。循环层的长处有三方面。首先,RNN 具备很强的捕捉序列中的上下文信息的能力。应用上下文线索进行基于图像的序列辨认比独立解决每个符号更稳固和更有帮忙。以场景文本辨认为例,宽字符可能须要间断几帧进行充沛形容(参见图 2)。此外,一些含糊的字符在察看上下文时更容易辨别,例如,比照角色高度更容易辨认“il”,而不是独自辨认“il”。其次,RNN 能够将误差差分反向流传到其输出端,即卷积层,容许咱们在一个对立的网络中联结训练循环层和卷积层。
LSTM 是定向的,它只应用过来的上下文。在基于图像的序列中,两种办法的上下文是有用的和互补的。而后,CRNN 将两个 LSTM,一个向前,一个向后,组合成一个双向 LSTM。此外,能够重叠多个双向 LSTM,产生深度双向 LSTM,如图 3.b 所示。深度构造比浅层构造具备更高层次的抽象性,并在语音辨认 [17] 工作中获得了显著的证实性能。在循环层中,误差差分与图 3.b 所示的箭头方向相同,即工夫反向流传(BPTT)。在循环层的底部,将流传的差分序列连接成映射,将特色映射转换为特色序列的操作,并反馈到卷积层。在实践中,咱们创立了一个自定义的网络层,称为“映射到序列”,作为卷积层和循环层之间的桥梁。
3.CTC(即转录层或翻译层)
转录是将 RNN 对每帧的预测转换为标签序列的过程。在数学上,转录是指在每帧预测的条件下找到具备最高概率的标签序列。在实践中,存在两种转录模式,即无词汇的转录和基于词汇的转录。词典是预测所束缚的一组标签序列,例如一个拼写查看字典。在无词汇模式下,没有任何词汇即可进行预测。在基于词汇的模式下,通过抉择概率最高的标签序列来进行预测。
试验后果:
CRNN 抉择 Synth 作为模型训练的数据集,抉择 ICDAR 2003(IC03), ICDAR 2013 (IC13), IIIT 5k-word (IIIT5k), 和 Street View Text (SVT)作为测试数据。其中 IC03 测试数据集蕴含 251 个带有标记文本边界框的场景图像。IC13 测试数据集继承了 IC03 的大部分数据。它蕴含 1015 个通过裁剪的单词图像。IIIT5k 蕴含从互联网上收集的 3000 张通过裁剪的单词测试图像。SVT 测试数据集由从 Google street view 收集的 249 张街景图像组成。
表 2 显示了通过提议的 CRNN 模型和最新技术(包含基于深度模型的办法)取得的上述四个公共数据集的所有辨认精度【(《Deep features for text spotting》)、(《Reading text in the wild with convolutional neural networks.》)、(《Deep structured output learning for unconstrained text recognition.》)】。在词汇受限的状况下,CRNN 的办法始终优于大多数最先进的办法,并且均匀优于 [22] 中提出的最佳文本阅读器。具体而言,CRNN 在 IIIT5k 上取得了优异的性能,SVT 与《Reading text in the wild with convolutional neural networks.》相比,在 IC03 上只有“残缺”词典的性能较低。
请留神,《Reading text in the wild with convolutional neural networks.》中的模型是在特定词典上训练的,即每个单词都与一个类标签相关联。与《Reading text in the wild with convolutional neural networks.》不同,CRNN 不局限于辨认已知词典中的单词,并且可能解决随机字符串(如电话号码)、句子或其余脚本,如中文单词。因而,CRNN 的后果在所有测试数据集上都具备竞争力。在无约束词典的状况下,CRNN 的办法在 SVT 上获得了最好的性能,但依然落后于 IC03 和 IC13 上的一些办法。请留神,表 2“无”列中的空白示意这种办法无奈利用于没有词典的辨认,或者在无约束的状况下没有报告辨认精度。CRNN 的办法仅应用带有单词级标签的合成文本作为训练数据,这与 PhotoOCR 十分不同,后者应用 790 万个带有字符级正文的实在单词图像进行训练。文献《Reading text in the wild with convolutional neural networks.》报告的最佳性能是在无约束词典的状况下,得益于其大词典,然而,它并不是后面提到的对词典严格无约束的模型。从这个意义上讲,CRNN 在无约束词典案例中的后果依然很有心愿。失去的试验后果如下:
论断:
提出了一种新的神经网络构造,称为卷积递归 神经网络(CRNN),它综合了卷积神经网络(CNN)和递归神经网络(RNN)的长处。CRNN 可能获取不同尺寸的输出图像,并生成不同长度的预测。例如,在每个阶段中,每个具体元素都会间接运行(例如,在每个阶段中,每个具体元素都会运行正文)。
此外,因为 CRNN 放弃了传统神经网络中应用的齐全连贯层,因而能够失去更紧凑、更高效的模型。所有这些个性使得 CRNN 成为基于图像的序列辨认的一种优良办法。在场景文本辨认基准上的试验表明,与传统办法以及其余基于 CNN 和 RNN 的算法相比,CRNN 获得了优越或极具竞争力的性能。这证实了该算法的优越性。此外,在光学音乐辨认(OMR)的基准测试中,CRNN 显著优于其余竞争对手,这验证了 CRNN 的通用性。
因而,CRNN 实际上能够利用于其余畛域的汉字辨认。进一步放慢 CRNN 的速度,使其在理论利用中更加实用,是将来值得摸索的另一个方向。
TextSnake
2018 年的论文《TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes》提出了一种灵便的任意形态场景文本检测办法 TextSnake。
其次要奉献有三个方面:
(1)提出了一种灵便的任意形态场景文本的通用示意办法;
(2)在此基础上,提出了一种无效的场景文本检测办法;
(3)提出的文本检测算法在多个基准上实现了最先进的性能,包含不同模式(程度、定向和蜿蜒)的文本实例
现有文本检测办法有一个独特的假如:
本实例的形态大体上是线性的;因而采纳绝对简略的表征办法 (轴对齐矩形、旋转矩形四边形);解决不规则形态的文本实例时,仍然会裸露问题;对于带有透视变形(perspective distortion) 的曲形文本 (curved text) 传统办法在准确预计的几何属性方面力不从心;文本实例不同表征办法的比照,图 a 是轴对齐矩形,图 b 是旋转矩形,图 c 是四边形;图 d 是 TextSnake。
TextSnake 算法原理:
TextSnake 图示
如图 1 所示,场景文本的惯例示意(如轴对齐矩形、旋转矩形和四边形)不能准确形容不规则形态的文本实例的几何属性,因为它们通常假如文本实例大抵为线性模式,这对于曲线文本不成立。为了解决这个问题,提出了一个灵便的和通用的办法:TextSnake。如图 2 所示,TextSnake 将一个文本实例示意为一个重叠的圆盘序列,每个圆盘都位于中心线上,并与一个半径和一个方向相关联。直观地说,TextSnake 可能扭转其形态,以适应文本实例的变动,如旋转、缩放和蜿蜒。
从数学上讲,由几个字符组成的文本实例 t 能够视为一个有序列表 S (t)。S (t) = {D0、D1、···、Di、···、Dn},其中 Di 代表第 i 个圆盘,n 为圆盘的数量。每个圆盘 D 都与一组几何属性相关联,即 D =(c、r、θ),其中 c、r 和 θ 别离为圆盘 D 的核心、半径和方向。半径 r 定义为其部分宽度 t 的一半,而方向 θ 是中心线围绕核心 c 的切向方向。在这个意义上,通过计算 S (t)中圆盘的并集,能够很容易地重建文本区域 t。
请留神,圆盘与 t 对应的字符不统一。然而,S (t)中的几何属性能够用于修改不规则形态的文本实例,并将其转换为矩形的直形图像区域,这对文本识别器更敌对
办法 Pipeline:
为了检测具备任意形态的文本,TextSnake 应用了一个 FCN 模型来预测文本实例的几何属性。该办法的管道流程如图 3 所示。基于 FCN 的网络预测文本中心线(TCL)和文本区域(TR)的得分图,以及几何属性,包含 r、cosθ 和 sinθ。TCL map 被 TR map 进一步覆盖,因为 TCL 天然是 TR 的一部分。为了执行实例宰割,鉴于 TCL 彼此不重叠,应用不相交集。采纳跨越式算法提取中轴点列表,最初对文本实例进行重构。
网络架构:
整个网络如图 4 所示。受 FPN 和 U -net 的启发,TextSnake 采纳了一种逐渐合并主网络不同档次特色的计划。骨干网络能够是被提出的用于图像分类的卷积网络,如 VGG-16/19 和 ResNet。这些网络能够分为 5 个卷积阶段和一些额定的全连贯(FC)层。TextSnake 删除 FC 层,并在每个阶段后将特色映射提供给特色合并网络。TextSnake 抉择 VGG-16 作为骨干网络,以便与其余办法进行间接偏心的比拟。
推理:
馈送之后,网络输入 TCL,TR 以及几何图,对于 TCL 和 TR,阈值别离设为 Ttcl 和 Ttr,而后,通过 TR 和 TCL 的交点,给出了 TCL 的最终预测。应用不相交集,能够无效地将 TCL 像素拆散为不同的文本实例。
最初,设计了一种跨步算法,提取出示意文本实例的形态和过程的有序点列表,并对文本实例区域进行重构。采纳两种简略的启发式办法来过滤出 false positive 文本实例:1)TCL 像素的数量应至多为其均匀半径的 0.2 倍;2)在重建的文本区域中,至多有一半的像素应该被归类为 TR。
跨步算法的执行过程如图 5 所示。它具备 3 个次要动作,即 Act (a)、Act (b)和 Act (c),如图 6 所示。首先,随机抉择一个像素作为终点,并将其集中起来。而后,搜寻过程分叉到两个相同的方向,大步后退和集中化,直到它达到起点。这个过程将在两个相同的方向上生成两个有序的点列表,它们能够组合起来产生最终的核心轴列表,它遵循文本的过程,并准确地形容形态。这 3 个动作的细节如下所示
试验后果:
本文中用于试验的数据集如下:
SynthText 是一个大型 sacle 数据集,蕴含约 800K 个合成文本图像。这些图像是通过将天然图像与随机字体、大小、色彩和方向出现的文本混合而成的,因而这些图像十分真切。咱们应用这个数据集对模型进行预训练。
TotalText 是一个新公布的文本检测基准。除了程度和面向多个方向的文本实例之外,该数据集还特地具备曲线文本,这在其余基准数据集中很少呈现,但实际上在理论环境中十分常见。该数据集分为训练集和测试集,别离蕴含 1255 张和 300 张图像。
CTW1500 是另一个次要由曲线文本组成的数据集。它由 1000 个训练图像和 500 个测试图像组成。文本实例应用具备 14 个顶点的多边形进行正文。
ICDAR 2015 被提议作为 Challenge 4 of the 2015 Robust Reading Competition 中偶尔场景文本检测的挑战 4。该数据集中的场景文本图像由谷歌眼镜拍摄,不思考地位、图像品质和视点。该数据集具备小的、含糊的、多方向的文本实例。有 1000 张图片用于培训,500 张图片用于测试。此数据集中的文本实例标记为单词级四边形。MSRA-TD500 是一个具备多语言、任意定向和长文本行。它包含 300 个训练图像和 200 个带有文本的测试图像行级正文。在之前的工作 [3,10] 之后,试验还将来自 HUST-TR400[39]的图像作为训练数据,在对该数据集进行调整时,因为其训练集十分小。
在 ICDAR 2015 和 MSRA-TD500 上的试验中,试验依据办法的输入文本区域确定了最小边界矩形。失去了如下图示的试验后果:为了进行比拟,Textsnake 还对 Total Text 和 CTW1500 上的 EAST 和 SegLink 模型进行了评估。表 1 和表 2 显示了这两个数据集上不同办法的定量后果。
如表 1 所示,TextSnake 所提出的办法在总文本的准确率、召回率和 F -measure 上别离达到 82.7%、74.5% 和 78.4%,显著优于以前的办法。请留神,TextSnake 办法的 F - measure 是原始 Total Text 论文 [12] 中提供的 Baseline 的两倍以上。
在 CTW1500 上,该办法的准确率、召回率和 F -measure 别离达到 67.9%、85.3% 和 75.6%。与 CTW1500 数据集一起提出的 CTD+TLOC 相比,TextSnake 算法的 F -measure 高出 2.2%(75.6% 对 73.4%)。该办法在全文本和 CTW1500 上的优异性能验证了该办法可能解决天然图像中的曲线文本。
ICDAR 2015 的微调将在大概 30k 次迭代时进行。在测试中,所有图像的大小都调整为 1280×768。Ttr、Ttcl 设置为(0.4、0.9)。思考到 ICDAR 2015 中的图像蕴含许多未标记的小文本,将过滤掉短边小于 10 像素或面积小于 300 的预测矩形。ICDAR 2015 上不同办法的定量后果如表 3 所示。仅通过单尺度测试,TextSnake 的办法优于大多数竞争对手(包含多尺度评估的办法)。这表明所提出的示意 TextSnake 是通用的,能够很容易地利用于简单场景中的面向多个方向的文本。
MSRA-TD500 上的微调将在大概 10k 次迭代时进行。Ttr、Ttcl 的阈值为(0.4、0.6)。在测试中,所有图像的大小都调整为 1280×768。后果如表 4 所示,TextSnake 办法的 F - Measure(78.3%)高于其余办法。
剖析与探讨:TextSnake 的办法与其余办法的区别在于,它可能预测文本实例的形态和过程的准确形容(见图 8)。
TextSnake 将这种能力归因于 TCL 机制。文本中心线能够看作是一种撑持文本实例的骨架,以及提供更多细节的天文属性。文本,作为一种书面语言的模式,能够看作是一个映射到二维外表上的信号流。当然,它应该遵循一条须要延长的路线。因而,TextSnake 倡议预测 TCL,它比整个文本实例要窄得多。它有两个长处:(1)一个修长的 TCL 能够更好地形容过程和形态;(2)直观地看,TCL 彼此不重叠,因而实例宰割能够以一种非常简单和间接的形式实现,从而简化了 TextSnake 的 pipeline。此外,如图 9 所示,TextSnake 能够利用部分几何图形来绘制文本实例的构造,并将预测的蜿蜒文本实例转换为标准模式,这可能在很大水平上促成了辨认阶段
为了进一步验证 TextSnake 的办法的泛化能力,在没有蜿蜒文本的数据集上训练和微调 TextSnake 的模型,并在两个具备蜿蜒文本的基准测试上对其进行评估。具体来说,在 ICDAR 2015 上调整了 TextSnake 的模型,并在指标数据集上对它们进行了评估。咱们以 EAST、SegLink 和 PixelLink 的模型作为 baseline,因为这两种办法也在 ICDAR 2015 上进行了训练。
如表 5 中所示,TextSnake 的办法在蜿蜒文本上依然体现良好,并且显著优于三个弱小的竞争对手 SegLink,EAST 和 PixelLink,而没有对蜿蜒文本进行微调。TextSnake 将这种优良的泛化能力归因于所提出的灵便示意。示意不是将文本作为一个整体,而是将文本视为部分元素的汇合,并将它们集成在一起以做出决策。部分属性在造成一个整体时被保留。此外,它们是互相独立的。因而,TextSnake 的办法的最终预测能够保留文本的形态和过程的大部分信息。这是所提出的文本检测算法可能搜寻具备不同形态的文本实例的次要起因。
论断:
TextSnake 提出了一种新鲜、灵便的示意办法,用于形容具备任意形态的场景文本的属性,包含程度、多向和曲线文本实例。TextSnake 提出的文本检测办法在两个新公布的曲线文本数据集(Total text 和 SCUT-CTW1500)以及两个在该畛域宽泛应用的数据集(ICDAR 2015 和 MSRA-TD500)上取得了最先进或可比的性能,证实了办法的有效性。
EAST
2017 年的论文《EAST: An Efficient and Accurate Scene Text Detector》提出了一个高效和精确的场景文本检测 pipeline 文本检测模型 EAST。典型的文本检测模型个别是会分多个阶段(multi-stage)进行,在训练时须要把文本检测切割成多个阶段(stage)来进行学习,这种把残缺文本行先宰割检测再合并的形式,既影响了文本检测的精度又十分耗时,对于文本检测工作上两头过程解决得越多可能成果会越差。那么当初咱们来学习又快、又准的检测模型。
EAST 的奉献:
1. 提出了一个由两阶段组成的场景文本检测办法:全卷积网络阶段和 NMS 阶段。
2. 该 pipeline 可灵便生成 word level 或 line level 上文本框的预测,预测的几何形态可为旋转框或程度框。
3. 算法在准确性和速度上优于此前最先进的办法。
EAST 算法原理:
EAST 模型简介该算法的要害组成部分是一个神经网络模型,它被训练来间接从残缺的图像中预测文本实例及其几何形态的存在。该模型是一个齐全卷积的神经网络,实用于文本检测,它能够输入对单词或文本线的密集的每像素预测。该模型是一个齐全卷积的神经网络,实用于文本检测,它能够输入对单词或文本行的密集的每像素预测。这就打消了诸如候选提案、文本区域的造成和文字的划分等两头步骤。后处理步骤只包含对预测的几何形态的阈值化和 NMS。该探测器被称为 EAST,因为它是一个高效和准确的场景文本检测 pipeline。
图 2(e)显示了 EAST 的管道的高级概述。该算法遵循 DenseBox 的个别设计,将图像输出 FCN,生成多个像素级文本评分图和几何图形通道。其中一个预测的通道是一个像素值在 [0,1] 范畴内的评分图。其余的通道示意蕴含在每个像素视图中的单词的几何图形。这个分数代表了在同一地位上预测的几何形态的置信度。EAST 试验了文本区域的两种几何形态,旋转框(RBOX)和四边形(QUAD),并为每个几何图形设计了不同的损失函数。而后将阈值利用于每个预测区域,其中分数超过事后定义的阈值的几何图形被认为是无效的,并保留为当前的非最大克制。NMS 之后的后果被认为是管道的最终输入。
EAST 模型网络结构 EAST 模型的网络结构,如下图:
在设计用于文本检测的神经网络时,必须思考到几个因素。因为单词区域的大小,如图 5 所示,变化很大,确定大单词的存在须要神经网络前期的特色,而预测蕴含一个小单词区域的精确几何形态在晚期阶段须要低水平的信息。
因而,网络必须应用来自不同级别的个性来满足这些需要。HyperNet 在特色图上满足这些条件,但在大型特色图上合并大量通道将显著减少前期阶段的计算耗费。为此,咱们采纳 u 型的思维,逐渐合并特色图,同时放弃上采样分支较小。咱们一起失去了一个网络,它既能够利用不同级别的个性,又能够放弃较小的计算成本。
咱们的模型的示意图如图 3 所示。该模型可分解为特征提取骨干、特色合并分支和输入层三局部。骨干能够是一个在 ImageNet 数据集上事后训练好的卷积网络,具备交织的卷积层和池化层。从骨干中提取出四级特色图,别离示意为 fi,其大小别离为输出图像的 1 /32、1/16、1/ 8 和 1 /4。图 3 中形容为 PVANet。在试验中,咱们还采纳了家喻户晓的 VGG16 模型,其中提取了 pooling- 2 到 pooling- 5 之后的特色映射。在特色合并分支中,咱们逐渐合并它们:
其中 gi 是合并基,hi 是合并的特色映射,操作符 [·;·] 示意沿通道轴的连贯。在每个合并阶段中,来自最初一个阶段的特色映射首先被输出到一个非池化层,以使其大小加倍,而后与以后的特色映射相连接。接下来,一个 conv1×1 瓶颈缩小了通道的数量并缩小了计算,而后是一个 conv3×3,它交融信息,最终产生这个合并阶段的输入。在最初一个合并阶段之后,一个 conv3×3 层生成合并分支的最终特色图,并将其提供给输入层。每个卷积的输入通道数如图 3 所示。咱们放弃分支中卷积的通道数很小,这只减少了骨干上的一小部分计算耗费,使网络的计算效率很高。最终的输入层蕴含几个 conv1×1 操作,以将 32 个通道的特色映射投影到 1 个通道的分数映射 Fs 和一个多通道几何映射 Fg 中。几何输入能够是 RBOX 或 QUAD 中的一个,在表 1 中总结。
对于 RBOX,几何形态由 4 个通道的轴对齐的边界框(AABB)R 和 1 个通道的旋转角度 θ 示意。R 的公式与(《Unifying landmark localization with end to end object detection》)雷同,其中 4 个通道别离示意从像素地位到矩形的上、右、下、左边界的 4 个间隔。对于 QUAD Q,应用 8 个数字来示意从四边形的四个角顶点 {pi|i∈{1,2,3,4}} 到像素地位的坐标位移。因为每个间隔偏移量蕴含两个数字(∆xi,∆yi),因而几何图形输入蕴含 8 个通道。标签生成(Label generation)Score Map Generation for Quadrangle:只思考几何是四边形的状况。得分图上的四边形的正面积大抵被设计为原始地图的放大版本,如图 4 (a). 所示对于一个四边形 Q = {pi|i∈{1,2,3,4}},其中 pi = {xi,yi}是按顺时针程序在四边形上的顶点。为了放大 Q,首先计算每个顶点 p 的参考长度 ri 为
式中,D(pi,pj)是 pi 和 pj 之间的 l2 间隔。咱们首先放大一个四边形的两条较长的边,而后放大那两个较短的边。对于每一对两个相同的边,咱们通过比拟它们的长度的平均值来确定“较长的”对。对于每条边 < pi,p(i mod 4)+1i >,咱们通过沿边挪动其两个端点向内别离挪动 0.3ri 和 0.3r(i mod 4)+ 1 来膨胀它。Geometry Map Generation:
几何图是 RBOX 或 QUAD 之一。RBOX 的生成过程如图 4(c-e)所示。对于那些文本区域以 QUAD 格调进行正文的数据集(例如,ICDAR 2015),咱们首先生成一个旋转的矩形,它笼罩了具备最小面积的区域。而后对于每个得分为正的像素,咱们计算它到文本框的 4 个边界的间隔,并将它们放到 RBOX 高空假相的 4 个通道中。对于 QUAD 高空假相,在 8 通道几何地图中每个得分为正的像素的值是它从四边形的 4 个顶点的坐标偏移。
试验后果:
定性后果:
图 5 形容了该算法的几个检测示例。它可能解决各种具备挑战性的场景,如不平均的照明,低分辨率,不同的方向和透视失真。此外,因为 NMS 过程中的投票机制,所提出的办法在具备不同模式的文本实例的视频上显示出较高的稳定性 2。该办法的两头后果如图 6 所示。能够看出,训练后的模型产生了高度准确的几何图和得分图,其中很容易检测出不同方向的文本实例。
定量后果:
如表 3 和表 4 所示,EAST 的办法在 IC-DAR 2015 和 COCO 文本上大大优于以前的最先进办法。在 ICDAR 2015 挑战 4 中,当图像以原始比例馈送时,所提出的办法的 F -score 达到 0.7820。当应用同一网络在多个量表 3 上进行测试时,EAST 的办法的 F -score 达到 0.8072,就绝对值而言,这比最佳办法高出了近 0.16(0.8072 vs.0.6477)。比拟应用 VGG16 网络的后果,当应用四路输入时,该办法的性能也比之前的最佳工作好 0.0924,当应用 RBOX 输入时,该办法的性能也比之前的最佳工作好 0.116。
同时,这些网络的效率相当高。在 COCO text 中,所提出的算法的所有三种设置都比之前的 top-performer(《Scene text detection via holistic, multi-channel prediction.》)具备更高的精度。具体而言,F -score 比(《Scene text detection via holistic, multi-channel prediction.》)进步了 0.0614,召回得分进步了 0.053,这证实了该算法的劣势,因为 COCO text 是迄今为止最大、最具挑战性的基准。请留神,试验还将(《Coco-text: Dataset and benchmark for text detection and recognition in natural images.》)中的后果作为参考,但这些后果实际上不是无效的 Baseline,因为办法(A、B 和 C)用于数据正文。与以前的办法相比,该算法的改良证实了一个简略的文本检测 pipeline,它间接针对最终目标并打消冗余过程,能够击败简单的 pipeline,甚至是那些与大型神经网络模型集成的 pipeline。
如表 5 所示,在 MSRA-TD500 上,EAST 办法的所有三种设置都获得了优异的后果。最佳工作的 F -score(Ours+PVANET2x)略高于《Scene text detection via holistic, multi-channel prediction.》。与之前公布的最先进零碎 Zhang 等人(《Multi-oriented text detection with fully convolutional networks》)的办法相比,最佳执行者(Ours+PVANET2x)的 F -score 进步了 0.0208,精确度进步了 0.0428。
请留神,在 MSRA-TD500 上,装备 VGG16 的算法的性能比装备 PVANET 和 PVANET2x 的算法差得多(0.7023 比 0.7445 和 0.7608),次要起因是 VGG16 的无效感触野小于 PVANET 和 PVANET2x 的无效感触野,而 MSRA-TD500 的评估协定须要文本检测算法的输入行级别,而不是单词级别的预测。此外,试验还依据 ICDAR 2013 基准评估了 Ours+PVANET2x。该办法在查全率、查准率和 F 得分方面别离达到 0.8267、0.9264 和 0.8737,与之前的最先进办法相比,前者的查全率、查准率和 F 得分别离为 0.8298、0.9298 和 0.8769。
EAST 模型的劣势在于简洁的检测过程,高效、精确,并能实现多角度的文本行检测。但也存在着不足之处,例如(1)在检测长文本时的成果比拟差,这次要是因为网络的感触野不够大;(2)在检测曲线文本时,成果不是很现实
参考文献:
Liu C Y, Chen X X, Luo C J, Jin L W, Xue Y and Liu Y L. 2021. Deep learning methods for scene text detection and recognition. Journal of Image and Graphics,26(06):1330-1367(刘崇宇, 陈晓雪, 罗灿杰, 金连文, 薛洋, 刘禹良. 2021. 天然场景文本检测与辨认的深度学习办法. 中国图象图形学报,26(06):1330-1367)[DOI:10. 11834 / jig. 210044] Shi B G, Bai X and Yao C. 2017a. An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(11): 2298-2304 [DOI: 10. 1109 / TPA-MI. 2016. 2646371]Zhou X Y, Yao C, Wen H, Wang Y Z, Zhou S C, He W R and Liang J J. 2017. EAST: an efficient and accurate scene text detector/ / Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 5551-5560 [DOI: 10. 1109 / CVPR. 2017. 283] Long S B, Ruan J Q, Zhang W J, He X, Wu W H and Yao C. 2018. TextSnake: a flexible representation for detecting text of arbitrary shapes/ / Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer: 19-35 [DOI: 10. 1007 / 978-3-030-01216-8_2]