共计 18186 个字符,预计需要花费 46 分钟才能阅读完成。
罕用的表格检测识别方法——表格构造识别方法(下)
3.2 表格构造识别方法
表格构造辨认是表格区域检测之后的工作,其指标是辨认出表格的布局构造、层次结构等,将表格视觉信息转换成可重建表格的构造形容信息。
这些表格构造形容信息包含:单元格的具体位置、单元格之间的关系、单元格的行列地位等。
在以后的钻研中,表格构造信息次要包含以下两类形容模式:
1)单元格的列表(蕴含每个单元格的地位、单元格 的行列信息、单元格的内容);
2)HTML 代码或 Latex 代码(蕴含单元格的地位信息,有些也会蕴含单元格的内容)。与表格区域检测工作相似,在晚期的表格构造识别方法中,研究者们通常会依据数据集特点,设计启发式算法或者应用机器学习办法来实现表格构造辨认工作。
Itonori(1993)依据表格中单元格的二维布局的 规律性,应用连通体剖析抽取其中的文本块,而后 对每个文本块进行扩大对齐造成单元格,从而失去 每个单元格的物理坐标和行列地位。
Rahgozar 等人(1994)则依据行列来进行表格构造的辨认,其先 辨认出图片中的文本块,而后依照文本块的地位以及两个单元格两头的空白区域做行的聚类和列的聚类,之后通过行和列的穿插失去每个单元格的位 置和表格的构造。Hirayama 等人(1995)则从表格线登程,通过平行、垂直等几何剖析失去表格的行和列,并应用动静布局匹配的办法对各个内容块进 行逻辑关系辨认,来复原表格的构造。
Zuyev(1997)应用视觉特色进行表格的辨认,应用行线和列线以及空白区域进行单元格宰割。该算法曾经利用到 FineReader OCR 产品之中。
Kieninger 等人(1998)提出了 T -Recs(Table RECognition System)零碎,以 词语区域的框作为输出,并通过聚类和列合成等启 发式办法,输入各个文本框对应的信息,复原表格 的构造。随后,其又在此基础上提出了 T -Recs++ 系 统(Kieninger 等,2001),进一步晋升了辨认成果。
Amano 等人(2001)创新性地引入了文本的语义信息,首先将文档合成为一组框,并将它们半自动地 分为四种类型: 空白、插入、批示和解释。而后依据 文档构造语法中定义的语义和几何常识,剖析示意 框与其关联条目之间的框关系。
Wang 等人(2004)将表格构造定义为一棵树,提出了一种基于优化方 法设计的表构造了解算法。该算法通过对训练集中 的几何散布进行学习来优化参数,失去表格的构造。同样应用树结构定义表格构造的还有 Ishitani 等人(2005), 其应用了 DOM(Document Object Model)树来示意表格,从表格的输出图像中提取单元格特 征。而后对每个单元格进行分类,辨认出不规则的 表格,并对其进行批改以造成规定的单元格排布。
Hassan(2007)、Shigarov(2016)等人则以 PDF 文 档为表格辨认的载体,从 PDF 文档中反解出表格视 觉信息。后者还提出了一种可配置的启发式办法框架。国内的表格构造辨认钻研起步较晚,因而传统的启发式办法和机器学习办法较少。在晚期,Liu 等 人(1995)提出了表格框线模板办法,应用表格的 框架线形成框架模板,能够从拓扑上或几何上反映 表格的构造。而后提出相应的项遍历算法来定位和 标记表格中的项。
之后 Li 等人(2012)应用 OCR 引擎抽取表单中的文本内容和文本地位,应用关键词 来定位表头,而后将表头信息和表的投影信息联合 起来,失去列分隔符和行分隔符来失去表格构造。总体来说,表格构造辨认的传统办法能够演绎为以下四种:基于行和列的宰割与后处理,基于文本的检测、扩大与后处理,基于文本块的分类和后处理,以及几类办法的交融。随着神经网络的衰亡,钻研人员开始将它们利用于文档布局剖析工作中。起初,随着更简单的架构的倒退,更多的工作被放到表列和整体构造辨认中。
A Zucker 提出了一种无效的办法 CluSTi,是一种用于辨认发票扫描图像中的表格构造的聚类办法。CluSTi 有三个奉献。首先,它应用了一种聚类办法来打消表格图片中的高噪声。其次,它应用最先进的文本辨认技术来提取所有的文本框。最初,CluSTi 应用具备最优参数的程度和垂直聚类技术将文本框组织成正确的行和列。Z Zhang 提出的宰割、嵌入和合并(SEM)是一个精确的表构造识别器。
M Namysl 提出了一种通用的、模块化的表提取办法。E Koci 提出了一种新的办法来辨认电子表格中的表格,并在确定每个单元格的布局角色后构建布局区域。他们应用图形模型表示这些区域之间的空间互相关系。在此基础上,他们提出了删除和填充算法(RAC),这是一种基于一组精心抉择的规范的表辨认算法。SA Siddiqui 利用可变形卷积网络的后劲, 提出了一种独特的办法来剖析文档图片中的表格模式。P Riba 提出了一种基于图的辨认文档图片中的表格构造的技术。该办法也应用地位、上下文和内容类型,而不是原始内容(可辨认的文本),因而它只是一种结构性感知技术,不依赖于语言或文本浏览的品质。E Koci 应用基于遗传的技术进行图划分,以辨认与电子表中的表格匹配的图的局部。
SA Siddiqui 将构造辨认问题形容为语义宰割问题。为了宰割行和列,作者采纳了齐全卷积网络。假如表构造的一致性的状况下,该办法引入了预测拼接办法,升高了表格构造辨认的复杂性。
作者从 ImageNet 导入事后训练的模型,并应用 FCN 编码器和解码器的构造模型。当给定图像时,模型创立与原始输出图像大小雷同的特色。SA Khan 提出了一个鲁棒的基于深度学习的解决方案,用于从文档图片中已辨认的表格中提取行和列。表格图片通过预处理,而后应用门控递归单元(GRU)和具备 softmax 激活的全连贯层发送到双向递归神经网络。
SF Rashid 提供了一种新的基于学习的办法来辨认不同文档图片中的表格内容。
SR Qasim 提出了一种基于图网络的表辨认架构,作为典型神经网络的代替计划。
S Raja 提出了一种辨认表格构造的办法,该办法联合了单元格检测和交互模块来定位单元格,并依据行和列预测它们与其余检测到的单元格的关系。此外,减少了结构限制的损失性能的单元格辨认作为额定的差别组件。
Y Deng 测试了现有的端到端表辨认的问题,他还强调了在这一畛域须要一个更大的数据集。
Y Zou 的另一项钻研呐喊开发一种利用全卷积网络的基于图像的表格构造辨认技术。所示的工作将表格的行、列和单元格划分。所有表格组件的预计边界都通过连贯组件剖析进行了加强。依据行和列分隔符的地位,而后为每个单元格调配行和列号。此外,还利用非凡的算法优化单元格边界。为了辨认表中的行和列,KA Hashmi [118]提出了一种表构造辨认的疏导技术。依据本钻研,通过应用锚点优化办法,能够更好地实现行和列的定位。在他们提出的工作中,应用掩模 R -CNN 和优化的锚点来检测行和列的边界。另一项宰割表格构造的致力是由 W Xue 撰写的 ReS2TIM 论文,它提出了从表格中对句法结构的重建。回归每个单元格的坐标是这个模型的次要指标。最后应用该新技术构建了一个能够辨认表格中每个单元格的街坊的网络。
本钻研给出了一个基于间隔的加权零碎,这将有助于网络克服与训练相干的类不均衡问题。C Tensmeyer 提出了 SPLERGE(Split and Merge),另一种应用扩大卷积的办法。他们的策略须要应用两种不同的深度学习模型,第一个模型建设了表的网格状布局,第二个模型决定了是否可能在许多行或列上进行进一步的单元格跨度。Nassar 为表格构造提供了一个新的辨认模型。在两个重要方面加强了 PubTabNet 端到端深度学习模型中最新的 encoder-dual-decoder。首先,作者提供了一种全新的表格单元指标检测解码器。这使得它们能够轻松地拜访编程 pdf 中的表格单元格的内容,而不用训练任何专有的 OCR 解码器。作者称,这种体系结构的改良使表格内容的提取更加准确,并使它们可能应用非英语表。第二,基于 transformer 的解码器取代了 LSTM 解码器。S Raja 提出了一种新的基于指标检测的深度模型,它被定制用于疾速优化并捕捉表格内单元格的天然对齐。即便应用准确的单元格检测,密集的表格辨认也可能依然存在问题,因为多行 / 列跨行单元格使得捕捉近程行 / 列关系变得艰难。因而,作者也寻求通过确定一个独特的直线的基于图的公式来加强构造辨认。
作者从语义的角度强调了表格中空单元格的相关性。作者倡议批改一个很受欢迎的评估规范,以思考到这些单元格。为了促成这个问题的新观点,而后提供一个中等大的进行了人类认知正文后的评估数据集。X Shen 提出了两个模块,别离称为行聚合(RA)和列聚合(CA)。
首先,作者利用了特色切片战争铺,对行和列进行粗略的预测,并解决高容错性的问题。其次,计算信道的 attention map,进一步取得行和列信息。为了实现行宰割和列宰割,作者利用 RA 和 CA 构建了一个语义宰割网络,称为行和列聚合网络(RCANet)。C Ma 提出了一种辨认表格的构造并从各种不同的文档图片中检测其边界的新办法。作
者倡议应用 CornerNet 作为一种新的区域候选网络,为 fasterR-CNN 生成更高质量的候选表格,这大大提高了更快的 R -CNN 对表格辨认的定位精度。该办法只利用最小的 ResNet-18 骨干网络。此外,作者提出了一种全新的 split-and-merge 办法来辨认表格构造。该办法利用一种新的 spatial CNN 分割线预测模块将每个检测表格划分为一个单元网格,而后应用一个 GridCNN 单元合并模块来复原生成单元格。它们的表格构造识别器能够精确地辨认具备显著空白区域的表格和几何变形(甚至是蜿蜒的)表格,因为 spatial CNN 模块能够无效地向整个表图片传输上下文信息。B Xiao 假如一个简单的表格构造能够用一个图来示意,其中顶点和边代表单个单元格以及它们之间的连贯。
而后,作者设计了一个 conditional attention 网络,并将表格构造辨认问题形容为一个单元格关联分类问题(CATT-Net)。Jain 倡议训练一个深度网络来辨认表格图片中蕴含的各种字符对之间的空间关系,以破译表格的构造。作者提供了一个名为 TSR-DSAW 的端到端 pipeline:TSR,通过深度空间的字符分割,它以像 HTML 这样的结构化格局生成表格图片的数字示意。该技术首先利用文本检测网络,如 CRAFT,来辨认输出表图片中的每个字符。接下来,应用动静布局,创立字符配对。这些字符配对在每个独自的图像中加下划线,而后交给 DenseNet-121 分类器,该分类器被训练来辨认同行、同列、同单元格或无单元格等空间相关性。
最初,作者将后处理利用于分类器的输入,以生成 HTML 表格构造。H Li 将这个问题表述为一个单元格关系提取的挑战,并提供了 T2,一种前沿的两阶段办法,胜利地从数字保留的文本中提取表格构造。T2 提供了一个宽泛的概念,即根本连贯,精确地代表了单元格之间的间接关系。为了找到简单的表格构造,它还构建了一个对齐图,并应用了一个消息传递网络。理论场景利用中的表格构造辨认,不仅要同时实现表格检测和构造辨认,还要对每个单元格的文本进行辨认和信息抽取,其流程比以上的钻研畛域都更为简单。
3.2.1 先进的表格构造辨认模型
SPLERGEICDAR
2019 的表格构造辨认最佳论文《Deep Splitting and Merging for Table Structure Decomposition》提出了一对新的深度学习模型 SPLERGE(宰割和合并模型),它们给定一个输出图像,1)预测根本的表格网格模式,2)预测应该合并哪些网格元素来复原逾越多行或列的单元格。该办法提出投影池作为宰割模型的一个新组成部分,而网格池作为合并模型的一个新组成部分。尽管大多数齐全卷积网络依赖于部分证据,但这些独特的池化区域容许模型利用全局表格构造。
该办法在 PDF 文档的公共 ICDAR 2013 表格比赛数据集上获得了最先进的性能。在作者用来训练模型的一个更大的公有数据集上,性能显著优于一个此前最先进的深度模型和一个次要的商业软件系统。SPLERGE 算法原理:论文提出的表格构造提取办法是 SPLERGE,它由两个深度学习模型组成,它们按程序执行宰割和合并操作(见图 1)。宰割模型承受一个裁剪良好的表格的输出图像,并以逾越整个图像的行和列分隔符的模式生成表格的网格构造。因为某些表蕴含生成单元格,因而作者将合并模型利用于拆分模型的网格输入,以将相邻的网格元素合并在一起,以复原生成单元格。
宰割模型(Split Model)
宰割模型以任何维数 H×W 的图像作为输出,并产生两个一维输入信号:r∈[0,1]H 和 c∈[0,1]W。输入信号 r 和 c 示意像素中的每一行(列)是逻辑表行(列)分隔符区域的一部分的概率。宰割模型由 3 个子网络组成:1)共享全卷积网络(SFCN)2)行投影网络(RPN)3)列投影网络(CPN)SFCN 计算 RPN 和 CPN 都在应用的部分图像特色。而后,RPN 和 CPN 将这些部分特色进行进一步解决,以预测行和列分隔符(别离为 r 和 c)。
SFCN 由 3 个卷积层和 7 ×7 核的卷积层组成,最初一层进行膨胀系数为 2 的收缩卷积。每一层产生 18 个特色映射,并应用 ReLU 激活函数。收缩卷积,比方池化,减少了网络的感触野,但与池化不同的是,它们保留了输出的空间分辨率。保留输出的空间分辨率在表构造提取中很重要,因为许多列和行分隔器只有几个像素宽。在 [6] 中,当调整初始输出的大小以使分隔符区域更大时,取得了更好的后果。有一个大的承受域也是至关重要的,因为确定行和列分隔符的地位可能须要全局上下文。例如,始终左对到雷同地位的文本示意列分隔符。
SFCN 的输入被作为 RPN 和 CPN 的输出。RPN 的输入为 r,即每一行像素是行分隔符区域的一部分的概率。同样,CPN 的输入为 c。因为 RPN 和 CPN 具备雷同的构造,除了投影和池化操作是在像素的行还是列上,所以只集中探讨 RPN。只管能够应用任意数量的块,但本办法中的 RPN 是由 5 个链接在一起的块组成的。依据教训,应用超过 5 个块并没有改善后果,同时作者应用了相似的过程来确定其余特定的架构抉择。为了简化探讨和阐明,作者在试验中应用了理论的超参数值,但也能够应用其余正当的值。在一个正当的范畴内扭转超参数仿佛并没有对非正式试验的后果产生显著的影响。图 2 显示了由单个块所执行的操作。首先,输出(并行)输出 3 个卷积层,其收缩因子为 2 /3/4,每个层产生 6 个特色映射。将每个开展卷积的输入连接起来,失去 18 个特色映射。应用多种扩张因子能够使 RPN 学习多尺度特色,并减少其感触野,同时依然采集更多的部分信息。
接下来,RPN 执行 1 ×2 最大池化(CPN 执行 2 ×1 最大池化)。这减小了特色图的宽度,但放弃了高度,因而输入信号 r 的大小为 h。只有前三个块执行最大池,以确保宽度不会被下采样。而后,RPN 通过 1 ×1 的卷积操作,而后进行投影池化(图 3),计算行特色(图 2 的顶部分支)。投影池化的灵感来自于经典布局剖析中用于寻找空白间隙的投影轮廓操作。作者应用投影池化放弃输出的空间大小(而不是像投影剖面图中那样折叠到一维),并简略地用它的行平均值替换输出中的每个值。具体来说,
其中 i,j 别离是在特色映射 F 中的行列索引,1≤j≤W。作者称 \hat{F}为 F 的行投影池化,并在每个特色映射上独立利用此操作,这是典型的池化操作。以这种形式池化容许信息在图像的整个宽度上流传,这可能超过 1000 个像素。这些行特色被连贯到最大池化操作的输入中,这样每个像素都具备部分和行全局特色。CPN 执行列投影池,相似地是,
图 2 的底部分支显示了块如何产生行预测,只管不是每个块都这样做。一个 1 ×1 的卷积产生一个繁多的输入映射,作者在其上执行投影池。而后作者利用一个 sigmoid 函数来产生概率。因为每一行像素都蕴含一个惟一的概率,作者能够取一个垂直切片失去一个一维概率信号 r^n,其中 n 示意块索引。为了使两头预测 r^n 可用于第 n + 1 块,作者还将 2D 中的概率连贯到块的输入中。在作者的实现中,只有最初 3 个块产生输入,即 r3、r4、r5。在训练过程中,作者对所有三个预测都利用了一个损失,但在训练后,作者只应用最初一个预测 r5 来进行推理。这种迭代预测过程容许模型做出预测,而后优化该预测。这些技术曾经胜利地利用于以往的天然场景中的结构化关键点检测工作。
1) 训练:SFCN、RPN 和 CPN 子网络在 150 DPI 的表格图像以典型的监督形式进行联结训练。作者假如图像被裁剪为只蕴含表单元格,并排除不在单元格区域内的表格题目、题目和脚注。
每个表都有正文的 GT 一维信号 r^和 c^。GT 的设计是为了最大化分隔区域的大小,而不相交于任何非跨行单元的内容,如图 4 所示。这与传统的单元格分隔符的概念相同,对于许多表来说,单元格分隔器是只有几个像素厚的细线。预测小区域比预测大区域更艰难,而且在无线表格的状况下,单元格分隔符的确切地位定义不明确。GT 分隔符区域可能与逾越多行或列的单元格内容相交。宰割模型的指标是复原表格的根本网格,并且生成单元格由合并模型来解决。损失函数是块预测和 GT 信号之间的均匀元素二值化穿插熵:
为了避免过拟合,作者批改方程 3,在 \lvert r^*_i-r_i \lvert <0.1 时,将损失膨胀为 0。总损失是单个输入损失的加权和:
其中,作者设置了 \lambda _4= 0.25 和 \lambda _3= 0.1。作者应用 ADAM 优化器随机初始化训练模型,进行大概 10^6 次权重更新。作者应用批处理大小为 1,因为表格图像有不同的空间大小。作者应用 0.00075 的初始学习率,每进行 80K 更新就会衰减 0.75 倍。2) 推理:一旦预测了 r,就须要推断行分隔符呈现在哪个像素地位。为简略起见,探讨集中在 r 上,但同样的程序也实用于 c,以取得列分隔符。
为此,作者通过在 r 上执行图形切割宰割,将图像宰割为行和行分隔符区域。而后,作者抉择与每个推断的分隔符区域的中点对应的行像素地位。为了创立宰割 r 的图,作者有 H 个节点排列在一个线性链中,其中每个节点都连贯到它的两个街坊(除了两端的两个节点)。邻域边权值平均设置为 \lambda _{gc}= 0.75。节点 i 连贯到边权值为 ri 的源节点和边权值为 1−r_i 的接管节点。合并模型(Merge Model)
合并模型应用输出图像和宰割模型的输入来预测须要合并哪些网格元素,以复原跨多行或列的单元格。输出张量是表格图像,输入行 / 列概率(r、c),推理的行 / 列区域和预测的网格构造的连贯。预测的概率 r 和 c 通过叠加(即,[r,r,……,r]))转换为二维图像。推理出的行 / 列区域被出现为二进制掩模(相似于图 4 中的红色区域)。预测的网格构造被渲染为一个二进制掩模,其中每行和列分隔符区域的中点被渲染为一条 7 像素宽的线。此外,网格构造还用于确定模型的池化区域。如果网格构造由 M 行和 N 列组成,则模型输入两个矩阵:1) D – probs。高低合并(大小为(M−1)× N)2) R – probs。左右合并(大小为 M ×(N−1))D_{ij}是单元格(i,j)与单元格(i+1,j)合并的概率,R_{ij}是单元格(i,j)和(i,j+1)合并的概率。
D 的大小不是 M×N,因为在任何一列中只有 M−1 对高低合并。在作者的公式中,所有这些概率都是独立的,即单个网格单元能够在多个方向上合并。合并模型的体系结构相似于宰割模型。有一组 4 个共享的卷积层(没有收缩),其中 2 ×2 的均匀池化产生在第 2 层和第 4 层之后。而后,该模型有 4 个分支,每个分支预测一个单元格在特定方向上合并的 M×N 概率矩阵,即上、下、左或右。将这些矩阵称为 u,d,l,r。而作者的独立性假如表明作者在方程式中将两个个体的概率相乘。在公式 5,6 中,当两个概率都靠近于 0 时,这将引入优化艰难,所以作者计算 D 和 R 为
直观地说,作者只预测,在单个分支输入之间存在一致性的状况下,应该将一对单元格合并。每个分支由 3 个块组成,与图 2 中所示的宰割模型块类似。不同之处在于,平行卷积层应用了 1 /2/ 3 的收缩因子,没有执行最大池化,投影池化被网格池化取代(图 5)。在网格池化中,每个像素地位替换其网格元素内的所有像素的平均值:
其中,Ω(i,j)是与(i,j)共享雷同网格元素的所有像素的坐标集。在网格池之后,同一网格元素内的所有像素共享雷同的值,这容许信息在每个单元格内流传。随后的卷积容许信息在相邻的单元格之间流传。为了生成给定分支的 u,d,l 或 r 矩阵,作者将每个网格元素中预测的四周像素概率均匀,并将它们排列在一个 M×N 矩阵中。
与宰割模型一样,合并模型也执行迭代输入优化,其中块 2 和块 3 产生输入预测。1) 训练:因为决裂和合并模型是打算按程序应用的,所以作者应用决裂模型产生的网格构造来训练合并模型。结构 GT D 和 R 矩阵(见图 6),作者 1) 在表格迭代所有生成的单元格 2) 确定网格元素相交的 GT 边界框 3) 对适当的方向,设置每个单元合并的概率为 1
在 Split 模型中,每个输入的损失函数是均匀(裁剪)元素级的二进制穿插熵(公式 4)。总损失是
因为生成单元格只呈现在用于训练模型的公有数据集中的 15% 的表格中,所以作者对这个数据集进行子采样,以便合并模型的 50% 的训练集至多有一对须要合并的单元格。训练超参数与宰割模型类似。以 0.5 的概率对 D 和 R 进行阈值计算,并合并批示的单元格。网络预测没有对生成的合并只产生矩形单元格的束缚,因而在后处理中增加了额定的合并,以确保生成的表构造只有矩形单元格。例如,将 3 个网格元素合并在一起造成一个 L 形单元格,而后将与第 4 个元素合并,以创立一个逾越 2 行 2 列的单元格。
试验:
ICDAR2013:
试验在 ICDAR 2013 数据集上的后果来自于在公有数据集上训练的模型。作者试图验证改良的性能来自于一个更好的深度模型,而不仅仅是来自一个更大的训练集。作者通过从新实现 DeepDeSRT 模型,并在与本文提出的模型雷同的数据上进行训练来做到这一点。表一显示了模型在 ICDAR 2013 数据集(工作 2)上的后果。带有 -PDF 后缀的办法表明应用了额定的 PDF 渲染的输出通道。该数据集的评估度量是对检测到的邻接关系的 f -score。粗略地说,这测量的是正确检测到的相邻单元格对的百分比,正确检测示意两个单元格都被正确地宰割并被辨认为相邻单元格。
对于这个数据集,合并模型未能为宰割模型的输入提供足够的后处理。在执行预测的合并后,后处理联合了额定的单元格,以避免单元格在最终输入中造成 L 形。在 ICDAR 2013 数据集中的几个大题目区域中,因为一些谬误的成对合并预测产生了 L 形,大量的单个单元群被合并为单个单元群。作者没有进一步细化启发式办法以避免 L 形图形的呈现,而是实现了一些简略的启发式办法,能够代替合并模型。这些启发式包含•合并预测的分隔符通过文本的单元格。•当绝大多数成对的单元格(在第 3 行之后)都为空白或每对只有一个单元格是非空白时,合并相邻的列。这将将一个内容列与(大部分)空白列合并。•在第一行(可能是题目行)中,将非空白单元格与相邻的空白单元格合并。•在垂直对齐的文本之间具备间断的空白间隙的宰割列。
图 8 中显示了一些由启发式办法固定的示例表。尽管 Split 模型在辨认表格网格方面体现良好,但它有时会犯一些很容易纠正的谬误,并且不能自己解决生成单元格。当联合简略的启发式办法来解决这些状况时,它实现了 95.26% 的 f -measure,而之前的最佳后果为 94.60%。Merge 模型未能从公有汇合推广到 ICDAR 2013 数据集,但如表二所示,它的确进步了公有汇合的性能。图 9 显示了一些通过 Split-PDF + 启发式对无线表的预测示例,这些预测比有线表更难辨认。
与 PDF 信息(文本、门路、图像通道)作为宰割模型的输出和不是时,有很大的性能差别。因为在公有汇合上的差别不那么大(表 II),作者得出结论,PDF 输出通道的有效性取决于数据集。ICDAR 表次要是排列的,有更大的题目,与训练数据集相比,可能有显著的视觉外观。因而,额定的 PDF 信息可能在不相熟的畛域中更有帮忙,因为文本和门路元素是显式的输出,而不须要由模型直观地推断。作者复现了 DeepDeSRT 表构造模型,并在与作者提出的模型雷同的公有数据上对其进行了训练。
然而,即便作者摸索了各种后处理阈值和训练超参数,作者也无奈取得正当的性能。在 DeepDeSRT,他们报告的 FM 为 91.44%,超过了 34 个表的随机子集,因而不能进行间接比拟。作者认为,这一差距表明,作者不能忠诚地重现他们的模型,以进行偏心的比拟。然而,作者应用的训练集十分不同,并且在公有汇合和 ICDAR 2013 数据集之间存在显著差别。这些起因能够解释性能差距,但差距足够大,以至于作者不确定作者的实现是否是 Deep DeSRT 的忠诚复现,因而作者省略了准确的性能数字,以防止间接比拟。
公有数据集:
在这个数据集上,作者应用精度和对正确检测到的细胞的召回率来评估办法。作者还报告了具备完满精确度和召回率的表的百分率。如果一个预测的边界框(BB)齐全只蕴含一个 GT 单元格内容 BB,那么它将是一个正确的预测。特地是,与多个 GT BB 相交或不齐全蕴含任何 GT BB 的预测 BB 被标记为 false positive。不匹配的 GT BB 被标记为 false negative。因为空白单元格没有被手动正文,所以作者排除了不与任何 GT BB 相交的预测 BB。这样,如果办法正确地预测了未标记的空白单元格,那么它们就不会受到惩办。表二显示了测试集上 5000 个表格的后果。
依据每个表计算报告的准确率和召回率,而后取平均值。作者无奈找到之前工作的任何官网实现,所以为了进行比拟,作者应用了商业软件系统 Acrobat Pro DC 和作者复现的 DeepDeSRT 模型。作者提出的模型的所有变体在所有指标上都显著优于两个 baseline。
作者还看到,因为应用宰割模型不能独自解决具备跨行单元格的表,合并模型显著进步了表格的准确性。对于须要合并的表,每个表须要合并的均匀数量比 ICDAR 2013 要少得多,从而导致更少的 L 形预测。作者还察看到,应用 PDF 信息作为输出的确带来了改善,但比 ICDAR 2013 的数据更轻微。这可能反映了这样一个事实,即 ICDAR 2013 和公有汇合之间的域差别在渲染的 PDF 中更为显著,但当只查看文本或门路图像通道时,差别就缩小了。这表明这种办法可能是无效的。
论断:论文提出了一种新的表格构造提取办法。它由一对深度学习模型组成,这些模型一起将一个表格图像宰割成根本的单元格网格,而后将单元格合并在一起,以复原逾越多行和多列的单元格。该模型的要害见解是在表格图像的大区域上会集信息,如像素的整个行 / 列或先前预测的单元格区域。当在 ICDAR 2013 表格比赛数据集上评估宰割模型时,实现了最先进的性能。试验还证实了 PDF 信息,如页面元素是否是文本 / 门路 / 图像,能够编码为深度网络的输出,并进步性能。然而,如果这些信息不可用(例如,扫描的文档),该模型只能应用灰度图像作为输出。
最初,证实了合并模型对从 web 中提取的表格公有数据集是无效的。TSRFormer2022 年微软研究院的论文《TSRFormer: Table Structure Recognition with Transformers》提出了一种新的表格构造辨认(TSR)办法,称为 TSRFormer,以从各种表格图像中持重地辨认具备几何畸变的简单表格的构造。与以往的办法不同,该办法将表格分割线预测定义为线回归问题而不是图像宰割问题,并提出了一种新的基于两阶段 DETR 的宰割预测办法,称为 SeparatorREgressionTRansformer(SepRETR),以间接预测表图像中的分割线。
为了使两阶段 DETR 框架无效地适宜于分割线预测工作,作者提出了两个改良:1)先验加强匹配策略来解决 DETR 的慢收敛问题;2)一种新的穿插留神模块间接从高分辨率卷积特色图中采样特色,从而在较低计算成本的状况下实现较高的定位精度。TSRFormer 算法原理:如图 1 所示,TSRFrorter 蕴含两个要害组件:1)基于 SepRETR 的宰割模块,用于预测每个输出表图像中的所有行和列拆散线;2)基于关系网络的单元合并模块来复原生成单元。这两个模块被连贯到一个由 ResNet-FPN 骨干生成的共享卷积特色图 P2 上
基于 SepRETR 的宰割模块
在宰割模块中,将两个并行分支附加到共享特色映射 P2 上,别离预测行和列分隔符。每个分支由三个模块组成:(1)特色加强模块,生成上下文加强特色图;(2)基于 SepRETR 的分割线预测模块;(3)辅助分割线宰割模块。特色加强:如图 1 所示,作者增加一个 3×3 卷积层和 3 个反复下采样块,每个块由 1×2 最大池化层、3×3 卷积层和 ReLU 激活函数组成,通过 P_2 后顺次生成下采样特色图 P_2\inR^{{\frac H4} X{\frac W {32}}XC}。而后,将两个级联空间 CNN(SCNN)模块连贯到 P_2^{‘}上,通过向整个特色图上向左右方向流传上下文信息,进一步加强其特色示意能力。以右方向为例,SCNN 模块沿宽度方向将 P_2^{‘}宰割成 \frac W{32}片,并从左向右顺次流传信息。对于每个切片,它首先被发送到一个内核大小为 9×1 的卷积层,而后通过元素级的增加与下一个切片合并。在 SCNN 模块的帮忙下,输入上下文加强的特色映射 E_{row}中的每个像素都能够利用来自两边的构造信息来取得更好的示意能力。
基于 SepRETR 的拆散线预测:如图 3 所示,作者应用三条平行的曲线线别离示意每行分隔符的顶边界、中心线和底边界。每条曲线用 K = 15 个点示意,其 x 坐标别离设置为 x_1,x_2,……x_k. 对于每一行分隔符,其 3K 点的 y 坐标由作者的 SepRETR 模型间接预测。在这里,作者为第 i 个 x 的 x 坐标设置了 X_i=\frac W{16}×{i}。对于列分支中的 y 坐标,作者只须要用 H 替换 W。如图 2 所示,作者的 SepRETR 蕴含两个模块:一个参考点检测模块和一个用于分割线回归的 DETR 解码器。参考点检测模块首先尝试从加强的特色映射 E_{row}中预测每个行分隔符的参考点。将检测到的参考点的特色作为对象查问,并输出 DETR 解码器,为每个查问生成加强的嵌入。这些加强的查问嵌入而后通过前馈网络独立地解码为拆散线坐标和类标签。这两个模块都连贯到一个共享的高分辨率特色图上,该特色图是通过在 E_{row}^{‘} \in R×W×C^{‘}中顺次增加一个 1×1 的卷积层和一个上采样层而生成的。
1) 参考点检测。
该模块试图预测沿着原始图像的宽度方向的固定地位 X_r 上的每个行分隔符的参考点。为此,E_{row}^{‘}的 X_r^{th}列中的每个像素被输出一个 sigmoid 分类器,以预测一个分数,以预计一个参考点位于其地位的概率(i,x_r)。
在这里,作者在所有试验中设置超参数 x_r 为 \frac H4 进行行线预测,y_r 为 \frac H4 进行列线预测。思考到 E_{row}^{‘}的 X_r^{th}列中每个像素的概率,作者通过在该列上应用 7×1 最大池化层来利用非最大克制来删除反复的参考点。之后,抉择前 100 个行参考点,并通过 0.05 的分数阈值进行进一步过滤。其余的行参考点作为行分割线回归模块中的 DETR 解码器的指标查问。2) 分割线回归。为了提高效率,作者不应用 transformer 编码器来加强 CNN 主干网输入的个性。相同,作者将高分辨率特色图 E_{row}^{‘}的 x_1^{th},x_2^{th},…,x_K^{th}列连接起来,以创立一个新的降采样特色图 C_{row}\in R^{H×K×C^{‘}}. 而后,将 E_{row}^{‘}从地位上提取的行参考点的特色视为对象查问,输出 3 层转换器解码器,与 C_{row}交互,进行拆散线回归。地位的地位嵌入(x,y)是通过连贯归一化坐标 \frac xW 和 \frac yH 的正弦嵌入来生成的,这与 DETR 中的雷同。经 transformer 解码器加强后,将每个查问的特色别离馈入两个前馈网络中进行分类和回归。对于行分隔符回归的 y 坐标的 GT 被归一化为 \frac {y_{gt}}H。先验加强的二分图匹配:从输出图像中给定一组预测及其对应的 GT 对象,DETR 应用 Hungarian 算法为零碎预测调配 GT 标签。然而,作者发现 DETR 中原始的二分匹配算法在训练阶段是不稳固的,即在不同的训练期间能够对同一图像中的不同对象进行查问,这大大降低了模型的收敛速度。作者发现,在第一阶段检测到的大多数参考点在不同的训练阶段都位于对应行分隔符的顶部和底部边界之间,因而作者利用这些先验信息间接将每个参考点与最近的 GT 分隔符进行匹配。这样,匹配的后果在训练过程中就会变得稳固。具体来说,作者通过测量每个参考点和每个 GT 分隔符之间的间隔来生成一个老本矩阵。如果一个参考点位于 GT 分隔符的顶部和底部边界之间,则老本被设置为从该参考点到该分隔符的 GT 参考点的间隔。否则,老本将设置为 INF。基于此老本矩阵,作者应用 Hungarian 算法在参考点和 GT 宰割之间产生一个最优的二分匹配。在失去最优匹配后果后,作者进一步去掉了具备老本 INF 的对,以绕过不合理的标签调配。在后续的试验表明,通过作者的事后加强的二分匹配策略,作者的 SepRETR 的收敛速度变得更快。辅助分割线宰割:这个辅助分支旨在预测每个像素是否位于任何分隔符的区域内。作者在 E_{row}之后增加了一个上采样操作,而后是一个 1×1 的卷积层和一个 sigmoid 分类器,来预测一个二进制掩模 M_{row}\in R^{W×H×1}来计算这种辅助损失。基于关系网络的单元格合并 在分割线预测后,作者将行线与列线相交,生成一个单元格网格,并应用关系网络通过合并一些相邻的单元格来复原生成单元格。如图 1 所示,作者首先应用 RoI 对齐算法从 P_2 中依据每个单元的边界盒提取 7×7×C 特色图,而后输出每层 512 个节点的两层 MLP,生成 512d 特征向量。这些单元特色能够排列在具备 N 行和 M 列的网格中,造成特色图 F_{cell}\in R^{N×M×512}, 而后通过三个反复的特色加强块来取得更宽泛的上下文信息,并输出关系网络来预测相邻单元之间的关系。每个特色加强块蕴含三个并行分支,其中别离有一个行级最大池化层、一个列级最大池化层和一个 3 ×3 卷积层。这三个分支的输入特色映射被连贯在一起,并通过一个 1×1 的卷积层进行卷积以进行降维。在关系网络中,对于每一对相邻的细胞,作者将它们的特色和 18d 空间相容性特色连接起来。而后在这个特色上利用一个二值分类器来预测这两个单元格是否应该合并。该分类器采纳了一个 2 个暗藏层的 MLP,每个暗藏层有 512 个节点和一个 sigmoid 激活函数。损失函数对于宰割模块,作者以行分隔符预测为例,并将相应的损失项示意为 L_^{row}。同样,作者也能够计算列分隔符预测的损失,记为 L_^{col}。参考点检测:采纳 focal loss 的一种变体来训练行参考点检测模块:
其中 N_r 为行分割线数,α 和 β 别离为设置为 2 和 4 的两个超参数,P_i 和 P_i^为 E_{row}^{‘}的 x_r^{th}列中 i^{th}像素的预测和 GT 标签。在这里,P_i^被非标准化高斯函数加强,它在分隔符的边界处被截断,以缩小在 GT 参考点地位四周的惩办。具体来说,让(y_k,x_r)示意 k^{th}行分隔符的 GT 参考点,它是该行分隔符的中心线与垂直线 x =X_r 的交点。以 k^{th}行分隔符顶部和底部边界的垂直距离作为其厚度,记为 w_k。那么,P_i^* 能够定义如下:
其中,
自适应于分隔器的厚度,以确保该行中的分隔符 P_i^* 不小于 0.1。辅助宰割损失:行分隔符的辅助宰割损失是一个二进制穿插熵损失:
其中 S_{row}示意 M_{row}的采样像素集,M_{{row}^{(x,y)}}和 M_{{row}^{(x,y)}}^别离示意 S_{row}像素 (x,y) 的预测和高空实在标签。仅当 M_{{row}^{(x,y)}}^的像素位于行分隔符内时,它才为 1,否则为 0。
总损失:transformer 中的所有模块都能够联结训练。整体损失函数如下:
其中,\lambda 是作者在试验中设置为 0.2 的控制参数。试验:数据集:SciTSR 蕴含 12,000 个训练样本和 3,000 个从迷信文献中裁剪进去的轴对齐表的测试样本。作者还从测试集中抉择了 716 个简单的表,以创立一个更具挑战性的测试子集,称为 SciTSRCOMP。在这个数据集中,单元格邻接关系度量被用作评估度量。PubTabNet 蕴含 500,777 个训练图像、9,115 个验证图像和 9,138 张测试图像,它们是通过匹配迷信文章的 XML 和 PDF 示意而生成的。所有的表格都是以轴向对齐的。因为没有公布测试集的正文,所以作者只报告验证集上的后果。论文提出了一种新的基于树编辑间隔的类似度(TEDS)度量,该度量既能够辨认表构造辨认,也能够辨认表构造辨认 OCR 谬误。然而,因为不同的 TSR 办法应用不同的 OCR 模型不同,思考 OCR 误差可能会导致不偏心的比拟。最近的一些工作提出了一种改良的 TEDS 度量 TEDS-Struct,仅通过疏忽 OCR 误差来评估表构造辨认精度。作者还应用这个批改后的度量值来评估作者在这个数据集上的办法。WTW 蕴含了从天然简单场景中收集到的 10,970 张训练图像和 3,611 张测试图像。该数据集只关注有边界的表格对象,并蕴含表 id、表格单元格坐标和行 / 列信息的正文信息。作者从原始图像中裁剪表区域用于训练和测试,并应用单元邻接关系(IoU=0.6)作为该数据集的评估指标。In-House 数据集蕴含 40,590 张训练图像和 1,053 张测试图像,这些图像是从异构文档图像中裁剪进去的,包含迷信出版物、财务报表、发票等。这个数据集中的大多数图像都是由相机捕捉的,所以这些图像中的表格可能是歪斜的,甚至是蜿蜒的。一些例子见图 4 和图 5。cTDaR TrackB 度量用于评估。作者应用 GT 文本框作为表格内容,并基于 IoU=0.9 报告后果。试验后果:作者在公共数据集 SciTSR、PubTabNet 和 WTW 上将提出的 TSRFormer 与几种最先进的办法进行了比拟。对于 SciTSR,因为其余办法提供的评估工具蕴含两种不同的设置(思考或疏忽空单元格),并且以前的一些工作没有解释他们应用了哪一种设置,所以实验报告了这两种设置的后果。如表 1 所示,论文的办法别离在测试集和简单的子集上获得了最先进的性能。在 SciTSR-COMP 上的良好结果表明,论文的办法对简单的表具备更强的鲁棒性。
在 PubTabNet 上,如表 2 所示,论文的办法在 TEDS-Struct 评分上达到了 97.5%,比 LGPMA(ICDAR 2021 迷信文献解析工作 B 比赛中的获胜者)高 0.8%。
为了验证论文的办法在天然场景中边界扭曲 / 蜿蜒表格对象的有效性,作者在 WTW 数据集上进行了试验,表 3 的结果表明,论文的办法在 f1-score 上比 cycle-centernet(专门为此场景设计)好 1.0%
为了验证 TSRFrormer 对更具备挑战性的无边界表的有效性,作者从新实现了另一种基于宰割和合并的办法 SPLERGE,并在几个数据集上与论文的办法进行了比拟。为了偏心比拟,作者利用 TSRFromer 雷同的模型架构,只实现了另一个分割线预测模块,该模块首先通过行 / 列级池加强特色映射,而后通过对程度 / 垂直切片中的像素进行分类来预测轴对齐的分隔符。如表 4 所示,从新实现的 SPLERGE 能够在 SciTSR 和 PubTabNet 数据集上获得竞争性的后果,而在具备挑战性的外部数据集上,它依然比 TSRFromer 低 11.4%。
图 5 和图 4 中的定性结果表明,论文的办法对于具备简单构造、无边界单元格、大空白空间、空白或跨行单元格以及扭曲甚至蜿蜒形态的表格具备鲁棒性。
融化试验:基于 SepRETR 的宰割模块的有效性:为了验证基于回归的拆散预测模块的有效性,作者采纳 RobusTabNet,去掉基于分割线回归模块 SepRETR,间接应用辅助拆散宰割分支进行拆散线预测,实现了另一个基于宰割的宰割模块。启发式 mask-to-line 模块也与 RobusTabNet 中的雷同。表 5 中的结果表明,论文的拆散回归模块显著优于基于宰割的宰割模块。图 6 显示了一些定性的后果。后处理模块很难很好地解决这种低质量的 mask。相比之下,基于回归的办法是启发式的,对这些具备挑战性的表鲁棒。
SepRETR 设计的融化钻研:论文还进行了以下融化钻研,以进一步钻研 SepRETR 中三个要害成分的奉献,即 transformer 解码器,用于 cross-attention 和汇合预测的特色。对于没有集预测的试验,实验设计了一个启发式的标签调配规定。如果一个参考点位于分隔符的两个边界之间,则其对应的查问将被视为一个正样本,而回归指标是它所在的分隔符。否则,对此参考点的查问是一个负样本。因为这种策略能够为一个宰割行调配多个查问,为了删除反复的后果,试验将 NMS 利用于从每个预测行的两个边界生成的多边形。如表 6 所示,应用 transformer 解码器来帮忙每个查问同时利用全局上下文和本地信息,能够显著进步基于 SepRETR 的宰割模块的性能。此外,表 6 的最初两行显示,应用采样的高分辨率特色图 C_{row}和 C_{col}能够进一步提高 f1-score 0.5%。尽管没有集预测的后果是好的,但作者发现这种办法对一些启发式设计十分敏感,如标签调配规定和 NMS。相同,用集预测损失训练 SepRETR 不仅能够取得更好的后果,而且能够解脱这种启发式设计的局限性。
先验加强的二分图匹配策略的有效性:作者通过训练基于 SepRETR 的宰割模块进行了一些试验。如表 7 所示,在 DETR 中应用原始策略训练模型 40 个 epoch 比训练 20 个 epoch 的精度更高,这意味着宰割模块没有齐全收敛。相比之下,应用所提出的先验加强匹配策略能够取得更好的成果。通过 20 和 40 个 epoch 训练的模型之间的性能差距较小,表明这两个模型收敛得很好,这表明先验加强的匹配策略能够使收敛速度更快
论断论文提出了一种新的表格构造识别方法,它蕴含两个无效的组件:一个基于 SepRETR 的分割线预测宰割模块和一个基于关系网络的用于跨行单元格复原的单元格合并模块。与以往基于图像宰割的分割线检测办法相比,基于 SepRETR 的分割线回归办法能够在不依赖启发式 mask-to-line 模块的状况下实现更高的 TSR 精度。试验结果表明,所提出的先验加强的二分匹配策略能够无效地进步两阶段 DETR 的收敛速度。因而,论文的办法在三个公共基准 SciTSR、PubTabNet 和 WTW 测试上获得了最先进的性能。在更具挑战性的实在外部数据集中,进一步验证了论文的办法对具备简单构造、无边界单元格、大空白空间、空白或跨行单元格以及扭曲或蜿蜒形态的表格的鲁棒性。
参考文献:
Gao L C, Li Y B, Du L, Zhang X P, Zhu Z Y, Lu N, Jin L W, Huang Y S, Tang Z . 2022.A survey on table recognition technology. Journal of Image and Graphics, 27(6): 1898-1917.
M Kasem , A Abdallah, A Berendeyev,E Elkady , M Abdalla, M Mahmouda, M Hamada, D Nurseitovd, I Taj-Eddin.Deep learning for table detection and structure recognition: A survey.arXiv:2211.08469v1 [cs.CV] 15 Nov 2022
C. Tensmeyer, V. I. Morariu, B. Price, S. Cohen, T. Martinez, Deepsplitting and merging for table structure decomposition, 2019 International Conference on Document Analysis and Recognition (ICDAR),IEEE, 2019, pp. 114–121.
Lin W H, Sun Z, Ma C X, Li M Z, Wang j w, Sun L, Huo Q. TSRFormer: Table Structure Recognition with Transformers.arXiv:2208.04921v1 [cs.CV] 9 Aug 2022