罕用的表格检测识别方法

表格检测辨认个别分为三个子工作:表格区域检测、表格构造辨认和表格内容辨认。本章将围绕这三个表格辨认子工作,从传统办法、深度学习办法等方面,综述该畛域国内国外的倒退历史和最新进展,并提供几个先进的模型办法。

3.1 表格区域检测办法

表格检测曾经被钻研了一段较长的工夫。钻研人员应用了不同的办法,能够分为如下:

1.基于启发式的办法

2.基于机器学习的办法

3.基于深度学习的办法


编辑

 

基于启发式的办法,次要用于20世纪90年代、2000年代和2010年初。他们应用了不同的视觉线索,如线条、关键词、空间特色等,来检测表格。

Pyreddy等人提出了一种应用字符对齐、孔和间隙来检测表格 的办法。Wang等人应用了一种统计办法来依据间断单词之间的间隔来检测表线。将程度间断的单词与垂直相邻的线分组起来,提出候选表实体。Jahan等人提出了一种应用单词间距和线高的部分阈值来检测表格区域的办法。

Itonori提出了一种基于规定的办法,通过文本块排列和规定行地位来定位文档中的表格。 Chandran和Kasturi开发了另一种基于垂直和水平线的表格检测办法。Wonkyo Seo等人应用连接点(水平线和垂直线的交点)检测进行进一步解决。

Hassan等人通过剖析文本块的空间特色来定位和宰割表格。Ruffolo等人介绍了PDF-TREX,这是一种用于单列PDF文档中的表格辨认的启发式自下而上的办法。它应用页面元素的空间特色来将它们对齐和分组为段落和表格。Nurminen提出了一套启发式办法来定位具备公共对齐的后续文本框,并确定它们作为一个表格的概率。

Harit等人提出了一种基于惟一表起始和尾部模式识别的表格检测技术。Tupaj等人提出了一种基于OCR的表格检测技术。该零碎基于关键字搜寻相似表格的行序列,上述办法在具备对立布局的文档上成果比拟好。

国内的表格区域检测钻研起步较晚,启发式办法较少。其中,具备代表性的是Fang等人提出的基于表格结构特征和视觉分隔符的办法。该办法以PDF文档为输出,分四步进行表格检测:PDF解析,页面布局剖析,线条检测和页面分隔符检测,表格检测。在最初的表格检测局部中,通过对上一步检测出的线条和页面分隔符进行剖析失去表格地位。然而,启发式规定须要推广到更宽泛的表格品种,并不真正适宜通用的解决方案。因而,开始采纳机器学习办法来解决表检测问题。

基于机器学习的办法在2000年代和2010年代很常见。

Kieninger等人通过对单词片段进行聚类,利用了一种无监督的学习办法。Cesarini等人应用了一种改良的XY树监督学习办法。Fan等人应用有监督和无监督的办法进行PDF文档中的表格检测。Wang和Hu 将决策树和SVM分类器利用于布局、内容类型和词组特色。T. Kasar等人应用结点检测,而后将信息传递给SVM分类器。Silva等人在视觉页面元素(隐马尔可夫模型)的程序察看上利用联结概率分布,将潜在的表线合并到表中。Klampfl等人比拟了两种来自数字迷信专题文章的无监督表识别方法。Docstrum算法利用KNN将构造聚合成线,而后应用线之间的垂直距离和角度将它们组合成文本块。该算法是在1993年设计的,比本节中提到的其余办法要早。

F Shafait 提出了一种有用的表识别方法,该办法在具备类似布局的文档上体现良好,包含商业报告、新闻故事和杂志页面。Tesseract OCR引擎提供了该算法的一个开源实现。

随着神经网络的趣味,钻研人员开始将它们利用于文档布局剖析工作中。最后,它们被用于更简略的工作,如表检测。起初,随着更简单的架构的倒退,更多的工作被放到表列和整体构造辨认中。

A Gilani [《Table detection using deep learning》]展现了如何应用深度学习来辨认表格。文档图片最后是依照文中提出的办法进行预处理的。而后,这些照片被发送到一个区域候选网络中进行表格测试,而后是一个齐全连贯的神经网络。该办法对各种具备不同布局的文档图片十分准确,包含文档、钻研论文和期刊。

D Prasad [《An approach for end to end table detection and structure recognition from image-based documents》]提出了一种解释文档图片中的表格数据的主动表格检测办法,次要须要解决两个问题:表格检测和表格构造辨认。应用繁多的卷积神经网络(CNN)模型,提供了一个加强的基于深度学习的端到端解决方案,用于处理表检测和构造辨认的挑战。CascadeTabNet是一个基于级联掩码区域的CNN高分辨率网络(Cascade mask R-CNN HRNet)的模型,能够同时辨认表区域和辨认这些表格中的构造单元格。

SS Paliwal [《Tablenet: Deep learning model for end-to-end table detection and tabular data extraction from scanned document images》]提出了一种新的端到端深度学习模型,可用于表格检测和构造辨认。为了划分表格和列区域,该模型应用了表格检测和表构造辨认这两个指标之间的依赖关系。而后,从发现的表格子区域中,进行基于语义规定的行提取。

Y Huang [《A yolo-based table detection method》]形容了一种基于YOLO原理的表格检测算法。作者对YOLOv3提供了各种自适应改良,包含一种锚定优化技术和两种后处理办法,以解释文档对象和实在对象之间的显著差别。还应用k-means聚类进行锚点优化,以创立更适宜表格而不是天然对象的锚点,使他们的模型更容易找到表格的准确地位。在后处理过程中,将从投影的后果中删除额定的空白和有噪声的页面对象。

L Hao [《A table detection method for pdf documents based on convolutional neural networks》]提供了一种基于卷积神经网络的PDF文档中检测表格的新办法,这是目前最宽泛应用的深度学习模型之一。该办法首先应用一些含糊的束缚来抉择一些相似表的区域,而后构建和细化卷积网络,以确定所抉择的区域是否为表格。此外,卷积网络立刻提取并应用表格局部的视觉方面特色,同时也思考了原始PDF文档中蕴含的非视觉信息,以帮忙取得更好的检测后果。

SA Siddiqui [《Decnt: Deep deformable cnn for table detection》]为检测文档中的表格提供了一种新的策略。这里给出的办法利用了数据的后劲来辨认任何排列的表。该办法间接实用于图像,使它广泛能实用于任何格局。该办法采纳了可变形CNN和faster R-CNN/FPN的独特混合。因为表格可能以不同的大小和转换(方向)的模式呈现,传统的CNN有一个固定的感触野,这使得表格辨认很艰难。可变形卷积将其感触野建设在输出的根底上,使其可能对其感触野进行革新以匹配输出。因为感触野的定制,网络能够适应任何布局的表格。

N Sun [《Faster r-cnn based table detection combining corner locating》]提出了一种基于Faster R-CNN的表检测的寻角办法。首先应用Faster R-CNN网络来实现粗表格辨认和角定位。而后,应用坐标匹配来对属于同一表格的那些角进行分组。不牢靠的边同时被过滤。最初,匹配的角组微调并调整表格边框。在像素级,该技术进步了表格边界查找的精度。

 I Kavasidis[《A saliency-based convolutional neural network for table and chart detection in digitized documents》]提出了一种检测表格和图表的办法,应用深度cnn、图形模型和 saliency ideas的组合。M Holecek[《Table understanding in structured documents》]提出了在账单等结构化文档中利用图卷积进行表格了解的概念,扩大了图神经网络的适用性。在钻研中也应用了PDF文档,钻研联合行项表格检测和信息提取,解决表格检测问题。任何字符都能够疾速辨认为行项或不应用行项技术。在字符分类之后,表格区域能够很容易地辨认进去,因为与账单上的其余文本局部相比,表格线可能相当无效地区分。

A Casado-Garcıa[《The benefits of close-domain fine-tuning for table detection in document images》]应用了指标检测技术,作者曾经表明,在进行了彻底的测试后发现,从一个更近域进行微调能够进步表格检测的性能。作者利用了Mask R-CNN、YOLO、SSD和 Retina Net联合指标检测算法。该钻研抉择了两个根本数据集, TableBank和PascalVOC。

X Zheng [《Global table extractor (gte): A framework for joint table identification and cell structure recognition using visual context》]提供了全局表格提取器(GTE),这是一种联结检测表格和辨认单元构造的办法,能够在任何对象检测模型之上实现。为了利用单元格地位预测来训练他们的表网络,作者开发了GTE-Table,它引入了一种基于表格固有的单元格束缚限度的新惩办。一种名为GTE-Cell的新型分层单元辨认网络利用了表格款式。此外,为了疾速、低成本地构建一个相当大的训练和测试数据语料库,作者开发了一种办法来主动分类现有文本中的表格和单元格构造。

Y Li[《A gan-based feature generator for table detection》]提供了一种新的网络来生成表格文本的布局元素,并进步规定较少的表格的辨认性能。生成反抗网络(GAN)与该特色生成器模型是相似的。作者要求特色生成器模型为规定束缚严格和规定涣散的表格提取可比拟的特色。

DD Nguyen [《a fully convolutional network for table detection and segmentation in document images》]引入了TableSegNet,一个齐全卷积的网络,设计紧凑,能够同时拆散和检测表。TableSegNet应用较浅的门路来发现高分辨率的表格地位,而应用较深的门路来检测低分辨率的表格区域,将发现的区域分割成独自的表格。TableSegNet在整个特征提取过程中应用具备宽泛内核大小的卷积块,并在主输入中应用一个额定的表格边界类,以进步检测和拆散能力。

D Zhang [《Yolo-table: disclosure document table detection with involution》]提出了一种 YOLO-table-based的表格检测办法。为了进步网络学习表格空间排列方面的能力,作者将进化纳入了网络的外围,并创立了一个简略的FPN网络来进步模型的有效性。这项钻研还提出了一种基于表格的加强技术。

下图是几种基于深度学习的表格检测办法的优缺点的比拟。


编辑

 

3.1.1 先进的表格区域检测模型

DeCNT

2018年的论文《DeCNT: Deep Deformable CNN for Table Detection》提出了一种新的表格检测办法,利用深度神经网络的后劲。传统的表格检测办法依赖于容易出错且特定于数据集的启发式办法。相比之下,本办法利用了数据辨认任意布局的表格的后劲。以前的大多数表格检测办法只实用于pdf,而所提出的办法间接实用于图像,使其广泛实用于任何格局。本办法采纳了可变形CNN和faster R-CNN/FPN的独特混合。因为表格可能以不同的大小和转换(方向)的模式呈现,传统的CNN有一个固定的感触野,这使得表格辨认很艰难。可变形卷积将其感触野建设在输出的根底上,使其可能对其感触野进行革新以匹配输出。因为感触野的定制,网络能够适应任何布局的表格。

DeCNT算法原理:

 

框架由可变形的CNN与faster R-CNN/FPN 的新组合组成,如图1所示。卷积神经网络是一种主动特征提取器,具备主动发现对手头工作有用的特色的能力。这种特色的主动提取是基于层的层次结构,其中初始层提取原始特色,如边缘和梯度,而层次结构顶部的层提取十分形象的特色,如残缺的对象或它的一些突出局部。这种在层次结构中的遍历导致了在原始输出图像中一个特定神经元的无效感触野的减少。传统的二维卷积运算能够用数学方法示意为:


 

其中*为卷积运算,F为滤波器,I为图像,K定义为FilterSize/2,H为图像高度,W为图像宽度,i,j定义执行卷积运算的地位。

在一个给定的卷积层中,所有神经元的无效感触野是雷同的。这个属性对于位于层次结构顶部的层存在问题,因为在这些层中,不同的对象可能会以任意尺度以及任意转换呈现。这些转换的存在须要依据神经元的输出动静地适应神经元的感触野的能力。因而,作者为faster R-CNN/FPN模型装备了一个可变形的CNN,而不是传统的CNN,其神经元并不局限于一个预约义的感触野。每个神经元能够依据输出产生显式偏移来扭转其感触野,这些偏移自身依赖于后面的特色图。这容许卷积层滤波器通过调节输出自身的感触野来适应不同的尺度和转换。这个可变形的卷积层如图2所示,其中增加了一组卷积层来生成图像中每个地位的滤波器偏移量。因为表能够以任意的比例以及任意变换(方向等),可变形卷积运算对于表的检测工作特地有用。可变形的二维卷积运算蕴含额定的偏移量,这在数学上能够示意为:


 


 



编辑

 

 

   

其中nm,n为bin(m,n)中的像素数。如果有C输出特色映射,那么来自该层的总体输入将是k × k × C,它将被提供给分类头。

可变形的roi池,就像卷积对应的池一样,为roi池层减少了一个偏移量,以便该层能够适应给定输出的感触野。这一点能够写成:


 

 因为在可变形的卷积层中生成显式偏移来转换每个神经元的感触野,作者在图3中可视化了特定可变形卷积层的感触野。红色的点示意滤波器的核心,而蓝色的点是在增加生成的偏移量后失去的。传统卷积运算的承受场均匀分布在二维网格上。另一方面,在可变形卷积的状况下,从图中能够显著看出,每个神经元依据其输出适应本人的感触野。当靠近一个表格区域时(图3(a),图3(c))时,感触野扩充到笼罩了残缺的表格,但在其余地位仍放弃致密(图3(b),图3(d))。

 

可变形构造

论文装备了两种具备可变形卷积的指标检测模型。第一个模型是一个可变形faster R-CNN,它由一个可变形的base model组成,并用可变形的roi池化层代替传统的roi池化层。本文将该模型称为模型a。第二个模型是采纳FPN框架的可变形特色金字塔网络(FPN)。在可变形的FPN中,再次应用可变形的base model,并将地位敏感的roi池化层替换为可变形的地位敏感的roi池化层

在所有的试验中,都应用了ResNet-101的base model。自可变形卷积是一个内存密集型操作因为生成的显式偏移的每个地位个性地图,论文只是取代了三个更高层次的层ResNet-101模型转换为可变形的对应层(可变形的感触野次要有助于层的层次结构)。这些层别离是res5a_branch2b、res5b_branch2b和res5c_branch2b。对于FPN的状况,作者另外将res3b3_branch2b层和res4b22_branch2b层替换为可变形的对应层,以帮忙多尺度特征提取。

因为没有足够的数据来从头开始训练模型,所以作者利用迁徙学习来训练模型。当应用可变形的ResNet-101时,作者将可变形的卷积层的偏移量初始化为零(零偏移量转化为固定的承受场,使其等同于传统的卷积操作)。因为网络在新数据集上进行了微调,偏移适应以应答表格构造的规模和转换。

值得注意的是,论文在指标检测模型中蕴含的惟一显著变动是应用可变形的基模型(可变形的ResNet-101)和应用可变形的roi池,而不是传统的roi池。这将传统的物体检测器转换为可变形的对应检测器。为了建设比拟,论文还训练了一个具备传统卷积操作的ResNet-101模型,将这个非可变形的模型称为模型C。

超参数

为了训练模型A(可变形速度faster R-CNN),咱们应用了三种不同的锚定比(0.5、1和2)和5种不同的锚定尺度(2、4、8、16和32)。为了训练模型B(可变形的FPN),咱们应用了雷同的锚定比(0.5、1和2),但只有一个锚定尺度(8),因为FPN另外装备了一个自上而下的门路用于多尺度检测。对于前250次迭代,优化模型的初始学习率为0.000125(多gpu训练时×NumGPUs)。而后应用速率为0.00125的学习速率(多gpu训练时×NumGPUs),在4、16和32个周期应用学习速率衰减步长。该模型通过了50次的优化。最大图像大小被限度为1280×800。超过这个尺寸的图像被调整大小,以放弃纵横比不变。

试验

数据集:

试验应用了四个驰名的公开的表检测数据集。数据集的细节,如表1。

ICDAR-13

ICDAR-2013是最驰名的表检测和构造辨认的数据集之一。数据集由PDF文件组成,论文将其转换为图像,以便在零碎中应用。这是必须的,因为论文的零碎只实用于图像,而不是大多数其余依赖于PDF文档中可用的元信息的办法。该数据集还蕴含了表构造辨认工作的构造信息。该数据集总共蕴含238张图像。因为之前在这个数据集上的大部分工作都应用了0.5的IoU阈值来计算f1,论文也基于这个阈值评估模型。

ICDAR-17

POD最近公布了一个比赛数据集(ICDAR-2017 POD),专一于从图像中检测表格、图形和数学方程的工作。该数据集总共由2417张图像组成。训练集由1600张图像组成,其余的817张图像用于测试。论文只评估了零碎的表格检测工作,这是工作的重点。因为比赛中所有提交的资料都是针对两个不同的IoU阈值0.6和0.8进行评估,论文报告了在这两个阈值上的体现。

MORMOT

由计算机科技研究所(北京大学)公布的Mormot是最大的公开可取得的表辨认数据集。数据集中的图像总数为2000张。两组图像的正负图像样本的比例约为1:1。在数据集中有许多不正确的ground truth正文的实例。因而,应用试验数据集的清理版本。数据集的清理版本由试验中应用的1967张图像组成。

UNLV

UNLV数据集由各种文档组成,包含技术报告、商业函件、报纸和杂志等。该数据集总共蕴含2889个扫描文档,其中只有424个文档蕴含一个表格区域。在试验中,论文只应用了一个蕴含一个表格区域的图像。

试验后果:

表2比拟了该办法与之前在ICDAR-2017 POD和ICDAR-2013数据集上的工作的性能。为了实现,还报告了UNLV和Mormot的后果,但这些数据集不是工作的重点。须要指出的是,依赖于PDF文档的零碎不能与论文的零碎进行间接比拟,因为它们应用了PDF文件中蕴含的元数据,而论文的办法只依赖于原始图像,而没有额定的元数据。这使得这个问题更加具挑战性。

 

A.ICDAR-13

 ICDAR-2013数据集由238张图像组成,蕴含156张表。试验应用数据集中的所有图像进行测试,而没有在训练中应用任何一幅图像。该零碎只有一个表格区域没检测到,获得99.4%召回。相似地,零碎只谬误地将一个区域标记为属于表(false positive),导致精度为99.4%。图4给出了来自ICDAR-13数据集的正确和谬误检测的代表性例子,包含 true positives, false positives, 和 false negatives。因为f-measure达到99.4%,在ICDAR- 2013数据集上全面优于之前的最先进的办法。

Schreiber等人应用了基于传统卷积运算的faster R-CNN的办法。因为它们的骨干是基于ZFNet 和VGG-16 ,它们的模型没有间接的可比性。因而,试验增加了模型C具备雷同的ResNet-101骨干的试验后果。结果表明,可变形卷积的综合性能优于传统的卷积。

 

B.ICDAR-17 POD

ICDAR-2017 POD挑战包含817张图像,其中蕴含317张表格。所有参赛作品均在两个不同的IoU阈值0.6和0.8上进行评估,以计算相干指标。可变形faster R-CNN(模型A)在0.6时体现良好,达到96.8%,召回率为97.1%,准确率为96.5%。可变形的FPN(模型B)实现了0.8的阈值的最先进的后果,f-measure达到95.3%,召回率为93.1%,精度为97.7%。

图5显示了来自ICDAR- 17 POD数据集的正确和谬误检测的代表性例子。依据所获得的后果,在IoU阈值别离为0.6和0.8时,本办法在表格检测工作上都优于所有其余ICDAR- 2017 POD挑战参与者。

对ICDAR-2017的谬误后果进行剖析发现,大部分谬误与IoU无关。起因是不同的数据集组合在到表边界的间隔方面有不同的正文。在极其状况下,有些状况下,表中的空单元格不被认为是表格区域的一部分。

试验再次将本办法的后果与传统的卷积对应的后果进行了比拟。在这种状况下,可变形的卷积也优于传统的卷积。

 

C.MORMOT

MORMOT数据集由1967张图像组成,共蕴含1348张表。除了Mormot之外,在其余三个数据集中训练的可变形faster R-CNN可能正确地检测到1275个表实例。该零碎还产生了226个false positives和73个false negatives,导致召回率为94.6%,准确率为84.9%。这导致了最终的f-measure为89.5%。图6给出了来自Mormot数据集的正确和谬误检测的代表性例子,包含true positives, false positives, 和 false negatives。

 D.UNLV

UNLV数据集也同样由424张图像组成,总共蕴含558张表。采纳雷同的留一计划训练的可变形疾速RCNN可能正确检测418个表实例。该零碎还产生了114个false positives和140个false negatives,导致召回率为74.9%,准确率为78.6%,最终的f-measure为76.7%。图7显示了UNLV正确分类的表格区域,而图8显示了不正确分类的表格区域。

 

 

论断

论文提出了一种基于region-based的可变形卷积神经网络的端到端表格检测办法。从对所提出办法的宽泛评估中能够显著看出,为天然场景中指标检测而开发的深度架构辅以可变形个性能够全面优于非变形的办法。

Semi-Supervised Deformable DETR

2023年的论文《Towards End-to-End Semi-Supervised Table Detection with Deformable Transformer》本文提出了一种新的端到端半监督表格检测办法,利用可变形transformer来检测表格对象。本办法在PubLayNet、DocBank、ICADR-19和TableBank数据集上评估了咱们的半监督办法,它比以往的办法获得了更好的性能。

算法原理:

Deformable DETR

可变形的DETR 蕴含一个Transformer encoder-decoder网络,它将指标检测视为一个可设置的预测工作。它应用了Hungarian损失,并通过双向图匹配防止了对ground truth边界框的重叠预测。它打消了对人工参加的元素的须要,如锚点和后处理阶段,如在基于cnn的对象检测器中应用的非最大克制(NMS)。可变形的DETR是DETR体系结构的一个扩大,它解决了DETR的一些限度,如训练收敛速度慢和在小对象上的性能差。可变形的DETR在体系结构中引入了可变形的卷积,这容许更灵便的对象形态建模和更好地解决不同尺度的对象。这能够进步性能,特地是在小物体上,并在训练过程中更快地收敛。图1显示了可变形transformer所有模块,包含多尺度特色和编解码器网络。

 

 

Transformer Decoder

解码器网络以编码器特色的输入和N个对象query作为输出。它蕴含两种留神类型和self-attention和cross-attention。self-attention模块查找对象query之间的连贯。这里的key和query矩阵都蕴含对象query。cross-attention模块应用对象query从输出特色图中提取特色。这里的key矩阵蕴含编码器模块提供的特色映射,query矩阵是作为解码器输出的对象query。在留神模块之后,增加前馈网络(FFN)和线性投影层作为预测头。线性投影层预测类标签,而FFN提供最终的边界框坐标值。

Deformable Attention Module

DETR网络中的Attention模块思考了输出特色图的所有空间地位,这使得训练的收敛速度较慢。然而,一个可变形的DETR能够利用基于可变形卷积的Attention网络和多尺度输出特色来解决这一问题。它只思考一个参考像素左近的几个样本像素,无论输出特色的大小如何,如图2所示。Query矩阵只须要一小部分key,解决了DETR训练收敛速度慢的问题。

 

Semi-Supervised Deformable DETR

半监督可变形DETR是一种对立的学习办法,它应用齐全标记和未标记的数据来进行指标检测。它蕴含两个模块,一个是学生模块和一个是老师模块。训练数据有两种数据类型,标签数据和未标记数据。学生模块将标记和未标记图像作为输出,其中对未标记数据利用强加强,而对标签数据利用(强加强和弱加强)。学生模块通过伪框应用已标记数据和未标记数据的检测损失进行训练。未标记的数据蕴含两组用于提供类标签的伪框及其边界框。老师模块在利用弱加强后,只将未标记的图像作为输出。图3是pipeline的摘要。老师模块将预测后果提供给伪标记框架,失去伪标签。而后,学生模块应用这些伪标签进行监督训练。这里,老师模块应用对未标记数据的弱加强来生成更准确的伪标签。通过对未标记数据的强加强,使学生模块具备更具挑战性的学习。学生模块还以一小部分具备强加强和弱加强的标记图像作为输出。对学生模块sm进行了优化,总损失如下:

 

 

 训期间,学生模块应用指数挪动均匀(EMA)策略不断更新老师模块。将概率分布视为伪标签,伪标签生成是简略的。相比之下,指标检测工作更加简单,因为一个图像可能蕴含许多对象,而正文蕴含对象地位和类标签。基于cnn的对象检测器应用锚点作为对象倡议,并通过非最大克制(NMS)等后处理步骤去除冗余的方框。

 

下篇持续介绍