第三章 罕用的表格检测识别方法
3.3 表格内容识别方法
表格辨认的钻研次要波及两个方面,一方面是对单元格内的文本进行辨认,这一步通常是在确定单元格区域后,利用较为稳固的光学字符识别办法(OCR)来实现,这一方面不是表格辨认钻研的重点,不在此开展;另一方面是基于整个表格内容进行的表格分类、单元格分类、以及表格信息抽取等工作,这是以后表格辨认钻研的热门畛域之一。下文会对表格信息抽取进行开展讲述。
从文档中抽取要害信息曾经被钻研了几十年。在基于深度学习的办法呈现之前,晚期的工作次要依赖于已知模板中的一些规定或人为设计的个性,因而它们通常在没见过的模板上失败,在理论利用中不可适配。随着深度学习的倒退,在信息抽取畛域获得了重大进展。如上所述,大多数基于深度学习的办法将信息抽取定义为一个 token 分类问题。除了上述工作外,M. Carbonell 还提出了一种基于 CNN 的办法,即从输出的文档图像中联结进行手写文本检测、转录和命名实体辨认。除了这个范式之外,信息抽取也能够作为其余问题来表述。Majumder 等人提出了一种利用先验常识提取要害畛域值的办法。对于每个字段,首先抉择一些候选词。而后,将每个字符的构造嵌入其上下文信息,计算该嵌入与指标域嵌入之间的余弦类似值作为类似度得分。SPADE(SPAtial DEpendency parser)[W. Hwang 等人]将信息抽取定义为一个空间依赖性解析问题。它构建了一个以文本段和字段作为图节点的依赖图,而后应用解码器从辨认的图节点之间的连通性中提取字段值。BROS(BERT Relying On Spatiality)[Hong 等人]通过提出了一种新的地位编码方法和一种基于区域掩蔽的预训练指标,进一步改良了 SPADE。另一类办法 [R. B. Palm 等人,H. Guo 等人,C. Sage 等人] 采纳在其余 NLP 或图像了解工作中应用的序列到序列模型,间接预测关键字段的所有值,而不须要字符监督。Xiao 等人构建了一个具备句子嵌入的二维文本嵌入图,并将该文本图和视觉特色与全卷积网络相结合,用于表格、章节题目、题目、段落等图像区域的像素级宰割。Raphael 等人提出了一种多模态神经模型,通过将一个二维文本嵌入到 CNN 模型的中间层,以便在历史报纸上进行更细粒度的宰割工作。还有一些钻研人员认为,文档的图像特色十分有用,因为图像特色是字体、字形、色彩等的混合示意。因为信息抽取工作波及文档图像,一些钻研人员将其视为一项纯正的计算机视觉工作。这些办法从光学字符识别(OCR)的角度解决了信息抽取工作。对于每一种类型的实体,这些办法设计了相应的解码器,负责辨认文本内容并确定其类别。因为不足语义特色,这种办法在面对简单的布局时不能很好地工作。钻研人员从不同的角度探讨了信息抽取工作。Hwang 等人和 Jiang 等人基于坐标信息序列化文本片段,并将坐标输出到序列标记器。然而,简略地将该地位视为某种特色,可能不能充分利用文本之间的视觉关系。为了充分利用语义特色和地位信息,Chargrid [Katti 等人]将字符映射到一个热向量上,从而填充文档图像上的字符区域。将带有语义信息的图像输出 CNN 进行检测,并进行语义宰割,提取实体。起初的 BERTgrid [Denk 和 Reisswig 等人]采纳了相似的办法,但应用了不同的字符嵌入办法。然而,它通过应用通道个性来示意语义,引入了大量的计算,特地是具备大类别的语言。因而,以语义特色作为节点特色,以文本片段的空间地位特色作为边缘特色,构建全局文档图通常是一种更好的解决方案。另外几种办法 [Qian 等人,Liu 等人,Yu 等人,Gal 等人,Cheng 等人] 应用 GNN 对文档的布局信息进行建模。
通过节点之间传递的音讯,这些模型能够学习每个文本的总体布局和散布,这有助于后续的实体提取。例如,Gui 等人提出了一种基于词汇的图神经网络,将中文 NER(命名实体辨认)视为节点分类工作。此外,GraphIE [Qian 等人]和 Liu 等人提出的模型通过 GNN 提取视觉特色,加强 BiLSTM-CRF 模型的输出,被证实是无效的。与全连贯或手工制作的图不同,PICK [Yu 等人]通过图学习预测了节点之间的连贯,这也进步了后果。这些办法应用 GNN 编码文本嵌入,给定视觉上丰盛的上下文,以隐式地学习键 - 值关系。表格信息抽取方面,国外的研究者在基于序列的办法上比较突出,提出了 LAMBERT,TILT 等一批优良的模型,这与国外长期积攒的语言模型倒退教训无关,在基于二维特色网格的办法上国外也有较早的摸索,提出了 Chargrid 和 BERTgrid 等经典模型,而对于基于图的办法钻研较少;
而国内的研究者在基于图和基于二维特色网格的办法上有着世界领先的程度,PICK,MatchVIE 和 ViBERTGrid 等办法在各种信息抽取工作上名落孙山。总的来说,近年来国内外研究者对表格内容辨认都十分关注,这一畛域的办法也呈现出多元化倒退的态势。