第四章 表格检测辨认技术面临的挑战和发展趋势
当初表格区域检测的准确率曾经很高了。但检测和辨认是相辅相成的,独自的检测不够欠缺。如何利用检测和构造辨认的后果相互进步成果,是将来的钻研方向和重点。
因为表格利用场景较为宽泛,表格模式多种多样,文档图像品质参差不齐,表格构造辨认仍存在着较大的挑战。具体表现为:(1)表格线的检测和宰割。有些表格是有线表,须要检测出程度和垂直的线条,并将它们宰割成单元格。有些表格是无线表,须要依据文本对齐或空白区域来划分单元格。有些表格是少线表,须要联合线条和文本信息来确定单元格边界。(2)表格单元格的合并和拆分。有些表格中存在跨行或跨列甚至跨页的单元格,须要辨认出它们的合并范畴,并将它们复原成规范的单元格。有些表格中存在多个文本内容共享一个单元格的状况,须要依据文本格式或语义来拆分它们成多个单元格。(3)表格内容的辨认和解析。有些表格中蕴含了图像、公式、符号等非文本内容,须要将它们转换成文本或者保留它们的格局。有些表格中蕴含了缩写、援用、正文等非凡内容,须要将它们还原成残缺的内容或者提取它们的起源。(4)表格构造的示意和输入。不同的利用场景可能须要不同的表格构造示意形式,例如 HTML、JSON、CSV 等。须要将表格构造辨认的后果转换成适宜指标利用的格局,并保留表格中的数据和款式信息。(5)表格线未对齐带来的行列断定艰难;(6)表格嵌套 (某些小表格是大表格的单元格) 带来的辨认艰难;(7)一些非常规的表格线标注模式;(8)事实场景带来的扭曲、褶皱和光照等问题。
表格内容辨认与了解是自然语言解决畛域的一个重要方向,随着自然语言模型的提高和倒退,研究者们能够解决更多的信息模式,不仅仅是 1 维的文本,还包含表格、票据等 (半) 结构化的文档。然而,因为表格的多样性和专业性,目前研究者们还面临着几大难题:(1)表格信息的示意形式没有对立的规范,不同类型的表格有着不同的结构特征,很难建设一个通用的表格信息辨认框架,目前的大部分钻研还只针对某些特定的表格数据进行性能晋升;(2)对于以内容为导向的表格工作,例如查问、问答和文本生成等,因为表格数据通常波及各个领域的专业知识且表格中的语义不明确,数据的标注工作很艰难且老本很高,训练出的模型泛化能力较弱。(3)表格内容的语义了解。表格内容通常蕴含了数字、符号、缩写、公式等非自然语言的元素,须要对它们进行正确的解释和转换。同时,表格内容也可能存在一些隐含的语义关系,例如因果、比拟、推理等,须要对它们进行正确的抽取和示意。(4)表格内容的上下文关联。表格内容通常不是孤立存在的,而是与其余文档或知识库有着肯定的分割。例如,表格可能呈现在文章、报告、网页等文档中,须要联合文档的主题、目标、构造等信息来了解表格的含意和作用。或者,表格可能波及到某个畛域或畛域的专业知识,须要联合知识库的概念、属性、关系等信息来了解表格的内容和背景。(5)表格内容的多模态交融。表格内容不仅仅是文本信息,还可能蕴含图像、音频、视频等多种模态的信息。例如,表格可能蕴含图标、图片、视频等视觉元素,须要联合视觉信息来了解表格的展现和阐明。或者,表格可能蕴含语音、音乐、声效等听觉元素,须要联合听觉信息来了解表格的形容和情感。
表格内容辨认与了解是自然语言解决畛域的一个疾速倒退的方向,然而目前还没有一个大规模的预训练模型可能很好地解决表格构造和表格生成等工作。目前罕用的办法大多都是基于已有的语言模型进行革新,尽管这类办法在某些特定问题上可能无效,然而往往难以迁徙到其余表格内容辨认相干的工作上。因而,如何设计并构建一个针对表格构造的大规模预训练模型,或者一个可能在程序文本、结构化文本和场景文本等多种文档模式上都有好的体现的预训练语言模型,是该畛域目前面临的一个重要挑战和钻研方向。
从整体趋势来看,一方面表格内容辨认的工作具备实用性的特点,新的工作和新的利用场景不断涌现,显示出了很高的利用价值,相干的工作类型和笼罩的畛域也趋于细化,呈现了很多专门针对具体问题的办法和模型;另一方面,表格内容辨认也具备理论性的意义,研究者们对于根底模型的构建具备很高的钻研趣味,一些与表格内容辨认相干的办法曾经显示出了很高的泛化能力,能实用于序列文本、结构化文本和场景文本等不同类型的对象。在抽象层次,寻求构建泛化性更强的基于文档的表征模型,摸索更加通用的办法来形容、了解和解决表格信息,也是将来的钻研热点之一。
为了克服上述的艰难和挑战,表格检测和辨认技术的发展趋势如下:利用深度学习办法,尤其是语义宰割模型,实现端到端的表格检测和辨认。利用多任务学习和注意力机制,进步表格构造和内容的辨认精度。利用弱监督或无监督的办法,缩小标注老本和进步泛化能力。利用多模态信息,例如文本、图像、声音等,进步表格信息的了解和利用。利用异构文档图像(如扫描文档、PDF 和具备简单布局、大空格或几何失真的图像)开发更持重、更精确的表格检测和构造识别方法。利用图神经网络和注意力机制将表构造建模为图,并对单元格关联进行分类。
参考文献:
Gao L C, Li Y B, Du L, Zhang X P, Zhu Z Y, Lu N, Jin L W, Huang Y S, Tang Z . 2022. A survey on table recognition technology. Journal of Image and Graphics, 27(6): 1898-1917.
M Kasem , A Abdallah, A Berendeyev,E Elkady , M Abdalla, M Mahmouda, M Hamada, D Nurseitovd, I Taj-Eddin. Deep learning for table detection and structure recognition: A survey. arXiv:2211.08469v1 [cs.CV] 15 Nov 2022