第三章 罕用的表格检测识别方法
3.2表格构造识别方法
表格构造辨认是表格区域检测之后的工作,其指标是辨认出表格的布局构造、层次结构等,将表格视觉信息转换成可重建表格的构造形容信息。这些表格构造形容信息包含:单元格的具体位置、单元格之间的关系、单元格的行列地位等。
在以后的钻研中,表格构造信息次要包含以下两类形容模式:1)单元格的列表(蕴含每个单元格的地位、单元格 的行列信息、单元格的内容);2)HTML代码或Latex代码(蕴含单元格的地位信息,有些也会蕴含单元格的内容)。
与表格区域检测工作相似,在晚期的表格构造识别方法中,研究者们通常会依据数据集特点,设计启发式算法或者应用机器学习办法来实现表格构造辨认工作。
Itonori(1993)依据表格中单元格的二维布局的 规律性,应用连通体剖析抽取其中的文本块,而后 对每个文本块进行扩大对齐造成单元格,从而失去 每个单元格的物理坐标和行列地位。
Rahgozar等人 (1994)则依据行列来进行表格构造的辨认,其先 辨认出图片中的文本块,而后依照文本块的地位以及两个单元格两头的空白区域做行的聚类和列的聚类,之后通过行和列的穿插失去每个单元格的位 置和表格的构造。
Hirayama等人(1995)则从表格线登程,通过平行、垂直等几何剖析失去表格的行和列,并应用动静布局匹配的办法对各个内容块进 行逻辑关系辨认,来复原表格的构造。
Zuyev(1997) 应用视觉特色进行表格的辨认,应用行线和列线以及空白区域进行单元格宰割。该算法曾经利用到FineReader OCR产品之中。
Kieninger等人(1998) 提出了T-Recs(Table RECognition System)零碎,以 词语区域的框作为输出,并通过聚类和列合成等启 发式办法,输入各个文本框对应的信息,复原表格 的构造。随后,其又在此基础上提出了T-Recs++系 统(Kieninger等,2001),进一步晋升了辨认成果。
Amano等人(2001)创新性地引入了文本的语义信息,首先将文档合成为一组框,并将它们半自动地 分为四种类型:空白、插入、批示和解释。而后依据 文档构造语法中定义的语义和几何常识,剖析示意 框与其关联条目之间的框关系。
Wang等人(2004) 将表格构造定义为一棵树,提出了一种基于优化方 法设计的表构造了解算法。该算法通过对训练集中 的几何散布进行学习来优化参数,失去表格的构造。 同样应用树结构定义表格构造的还有Ishitani等人 (2005),其应用了DOM(Document Object Model) 树来示意表格,从表格的输出图像中提取单元格特 征。而后对每个单元格进行分类,辨认出不规则的 表格,并对其进行批改以造成规定的单元格排布。
Hassan(2007)、Shigarov(2016)等人则以PDF文档为表格辨认的载体,从PDF文档中反解出表格视 觉信息。后者还提出了一种可配置的启发式办法框架。
国内的表格构造辨认钻研起步较晚,因而传统的启发式办法和机器学习办法较少。
在晚期,Liu等 人(1995)提出了表格框线模板办法,应用表格的 框架线形成框架模板,能够从拓扑上或几何上反映 表格的构造。而后提出相应的项遍历算法来定位和 标记表格中的项。之后Li等人(2012)应用OCR引擎抽取表单中的文本内容和文本地位,应用关键词 来定位表头,而后将表头信息和表的投影信息联合 起来,失去列分隔符和行分隔符来失去表格构造。总体来说,表格构造辨认的传统办法能够演绎为以下四种:基于行和列的宰割与后处理,基于文本的检测、扩大与后处理,基于文本块的分类和后处理,以及几类办法的交融。随着神经网络的衰亡,钻研人员开始将它们利用于文档布局剖析工作中。起初,随着更简单的架构的倒退,更多的工作被放到表列和整体构造辨认中。
A Zucker提出了一种无效的办法CluSTi,是一种用于辨认发票扫描图像中的表格构造的聚类办法。CluSTi有三个奉献。首先,它应用了一种聚类办法来打消表格图片中的高噪声。其次,它应用最先进的文本辨认技术来提取所有的文本框。最初,CluSTi应用具备最优参数的程度和垂直聚类技术将文本框组织成正确的行和列。
Z Zhang提出的宰割、嵌入和合并(SEM)是一个精确的表构造识别器。
M Namysl提出了一种通用的、模块化的表提取办法。
E Koci 提出了一种新的办法来辨认电子表格中的表格,并在确定每个单元格的布局角色后构建布局区域。他们应用图形模型表示这些区域之间的空间互相关系。在此基础上,他们提出了删除和填充算法(RAC),这是一种基于一组精心抉择的规范的表辨认算法。
SA Siddiqui利用可变形卷积网络的后劲,提出了一种独特的办法来剖析文档图片中的表格模式。
P Riba提出了一种基于图的辨认文档图片中的表格构造的技术。该办法也应用地位、上下文和内容类型,而不是原始内容(可辨认的文本),因而它只是一种结构性感知技术,不依赖于语言或文本浏览的品质。
E Koci应用基于遗传的技术进行图划分,以辨认与电子表中的表格匹配的图的局部。
SA Siddiqui将构造辨认问题形容为语义宰割问题。为了宰割行和列,作者采纳了齐全卷积网络。假如表构造的一致性的状况下,该办法引入了预测拼接办法,升高了表格构造辨认的复杂性。作者从ImageNet导入事后训练的模型,并应用FCN编码器和解码器的构造模型。当给定图像时,模型创立与原始输出图像大小雷同的特色。
SA Khan提出了一个鲁棒的基于深度学习的解决方案,用于从文档图片中已辨认的表格中提取行和列。表格图片通过预处理,而后应用门控递归单元(GRU)和具备softmax激活的全连贯层发送到双向递归神经网络。
SF Rashid提供了一种新的基于学习的办法来辨认不同文档图片中的表格内容。
SR Qasim提出了一种基于图网络的表辨认架构,作为典型神经网络的代替计划。
S Raja提出了一种辨认表格构造的办法,该办法联合了单元格检测和交互模块来定位单元格,并依据行和列预测它们与其余检测到的单元格的关系。此外,减少了结构限制的损失性能的单元格辨认作为额定的差别组件。
Y Deng 测试了现有的端到端表辨认的问题,他还强调了在这一畛域须要一个更大的数据集。
Y Zou的另一项钻研呐喊开发一种利用全卷积网络的基于图像的表格构造辨认技术。所示的工作将表格的行、列和单元格划分。所有表格组件的预计边界都通过连贯组件剖析进行了加强。依据行和列分隔符的地位,而后为每个单元格调配行和列号。此外,还利用非凡的算法优化单元格边界。为了辨认表中的行和列,KA Hashmi [118]提出了一种表构造辨认的疏导技术。依据本钻研,通过应用锚点优化办法,能够更好地实现行和列的定位。在他们提出的工作中,应用掩模R-CNN和优化的锚点来检测行和列的边界。另一项宰割表格构造的致力是由W Xue撰写的ReS2TIM论文,它提出了从表格中对句法结构的重建。回归每个单元格的坐标是这个模型的次要指标。最后应用该新技术构建了一个能够辨认表格中每个单元格的街坊的网络。
本钻研给出了一个基于间隔的加权零碎,这将有助于网络克服与训练相干的类不均衡问题。
C Tensmeyer提出了SPLERGE(Split and Merge),另一种应用扩大卷积的办法。他们的策略须要应用两种不同的深度学习模型,第一个模型建设了表的网格状布局,第二个模型决定了是否可能在许多行或列上进行进一步的单元格跨度。
Nassar为表格构造提供了一个新的辨认模型。在两个重要方面加强了PubTabNet端到端深度学习模型中最新的encoder-dual-decoder。首先,作者提供了一种全新的表格单元指标检测解码器。这使得它们能够轻松地拜访编程pdf中的表格单元格的内容,而不用训练任何专有的OCR解码器。作者称,这种体系结构的改良使表格内容的提取更加准确,并使它们可能应用非英语表。第二,基于transformer的解码器取代了LSTM解码器。
S Raja提出了一种新的基于指标检测的深度模型,它被定制用于疾速优化并捕捉表格内单元格的天然对齐。即便应用准确的单元格检测,密集的表格辨认也可能依然存在问题,因为多行/列逾越单元格使得捕捉近程行/列关系变得艰难。因而,作者也寻求通过确定一个独特的直线的基于图的公式来加强构造辨认。作者从语义的角度强调了表格中空单元格的相关性。作者倡议批改一个很受欢迎的评估规范,以思考到这些单元格。为了促成这个问题的新观点,而后提供一个中等大的进行了人类认知正文后的评估数据集。
X Shen提出了两个模块,别离称为行聚合(RA)和列聚合(CA)。首先,作者利用了特色切片战争铺,对行和列进行粗略的预测,并解决高容错性的问题。其次,计算信道的attention map,进一步取得行和列信息。为了实现行宰割和列宰割,作者利用RA和CA构建了一个语义宰割网络,称为行和列聚合网络(RCANet)。
C Ma提出了一种辨认表格的构造并从各种不同的文档图片中检测其边界的新办法。作者倡议应用CornerNet作为一种新的区域候选网络,为fasterR-CNN生成更高质量的候选表格,这大大提高了更快的R-CNN对表格辨认的定位精度。该办法只利用最小的ResNet-18骨干网络。此外,作者提出了一种全新的split-and-merge办法来辨认表格构造。该办法利用一种新的spatial CNN拆散线预测模块将每个检测表格划分为一个单元网格,而后应用一个GridCNN单元合并模块来复原生成单元格。它们的表格构造识别器能够精确地辨认具备显著空白区域的表格和几何变形(甚至是蜿蜒的)表格,因为spatial CNN模块能够无效地向整个表图片传输上下文信息。
B Xiao假如一个简单的表格构造能够用一个图来示意,其中顶点和边代表单个单元格以及它们之间的连贯。而后,作者设计了一个conditional attention网络,并将表格构造辨认问题形容为一个单元格关联分类问题(CATT-Net)。
Jain倡议训练一个深度网络来辨认表格图片中蕴含的各种字符对之间的空间关系,以破译表格的构造。作者提供了一个名为TSR-DSAW的端到端pipeline:TSR,通过深度空间的字符分割,它以像HTML这样的结构化格局生成表格图片的数字示意。该技术首先利用文本检测网络,如CRAFT,来辨认输出表图片中的每个字符。接下来,应用动静布局,创立字符配对。这些字符配对在每个独自的图像中加下划线,而后交给DenseNet-121分类器,该分类器被训练来辨认同行、同列、同单元格或无单元格等空间相关性。最初,作者将后处理利用于分类器的输入,以生成HTML表格构造。
H Li将这个问题表述为一个单元格关系提取的挑战,并提供了T2,一种前沿的两阶段办法,胜利地从数字保留的文本中提取表格构造。T2提供了一个宽泛的概念,即根本连贯,精确地代表了单元格之间的间接关系。为了找到简单的表格构造,它还构建了一个对齐图,并应用了一个消息传递网络。理论场景利用中的表格构造辨认,不仅要同时实现表格检测和构造辨认,还要对每个单元格的文本进行辨认和信息抽取,其流程比以上的钻研畛域都更为简单。
参考文献:
Gao L C, Li Y B, Du L, Zhang X P, Zhu Z Y, Lu N, Jin L W, Huang Y S, Tang Z . 2022.A survey on table recognition technology. Journal of Image and Graphics, 27(6): 1898-1917.
M Kasem , A Abdallah, A Berendeyev,E Elkady , M Abdalla, M Mahmouda, M Hamada, D Nurseitovd, I Taj-Eddin.Deep learning for table detection and structure recognition: A survey.arXiv:2211.08469v1 [cs.CV] 15 Nov 2022
S A Siddiqui , M I Malik,S Agne , A Dengel and S Ahmed. DeCNT: Deep Deformable CNN for Table Detection. in IEEE Access, vol.6, pp.74151-74161, [DOI: 10.1109/ACCESS.2018.2880211]
T Shehzadi, K A Hashmi, D Stricker, M Liwicki , and M Z Afzal.Towards End-to-End Semi-Supervised Table Detection with Deformable Transformer.arXiv:2305.02769v2 [cs.CV] 7 May 2023