关于深度学习:阅读表格检测识别技术的发展历程

108次阅读

共计 2694 个字符,预计需要花费 7 分钟才能阅读完成。

近年来,随着计算机技术的飞速发展,越来越多的研究者开始关注表格检测辨认技术。表格检测辨认技术是一种利用计算机主动解决表格的技术,它能够实现从文本中检测出表格,并进行辨认和提取。这种技术有助于进步文本处理的效率,为计算机辅助常识发现和常识开掘提供了反对。

表格检测和辨认技术的倒退能够追溯到 20 世纪 80 年代,过后,随着计算机技术的倒退,人们开始尝试应用计算机来检测和辨认文档中的表格。过后的技术次要以传统的计算机视觉技术为根底,包含图像处理、分类和特征提取等技术。晚期的表格检测与辨认钻研次要是基于启发式规定的办法,即指定一组规定来进行决策,以便辨认出满足特定条件的表格。

1980 年代,Yann Le Cun 传授在论文《模式识别的数字图像处理》中提出了第一个用于表格检测的神经网络。它引入了一种可用于提取表格边缘特色的滤波器,并将其用于训练模型。Le Cun 的论文为表格检测辨认技术的倒退提供了根底。
1990 年代,论文《利用结构特征进行表格检测》中提出了一种基于结构特征的表格检测算法论文利用表格中的斜线、网格线和表格边框等结构特征来检测表格,使表格检测技术倒退到了新的高度。
2002 年,论文《基于序列的表格检测》中提出了一种基于序列模式的表格检测算法。论文的办法应用序列模式来检测表格,并能够更好地解决简单表格构造,为表格检测技术的倒退带来了新的思路。
2008 年,论文《基于统计模型的表格检测》中提出了一种基于统计模型的表格检测算法,能够无效地检测简单的表格构造,为表格检测技术的倒退做出了重大贡献。

21 世纪初,因为计算机视觉技术的倒退,学者们开始应用机器学习和深度学习技术来检测和辨认表格。随着深度学习技术的倒退,表格检测和辨认技术也产生了巨大变化。深度学习技术为表格检测和辨认技术带来了新的倒退时机,也为表格检测和辨认技术提供了更加无效的解决方案。近年来,随着计算机技术的进一步倒退,深度学习技术的一直演进,使表格检测和辨认技术倒退得更加迅速。表格辨认也逐步演变成了多个子钻研畛域,包含表格检测、表格构造辨认、表格内容辨认、端对端的表格检测与构造辨认等。

2010 年,微软研究院通过多年的钻研,首次以自动化的模式检测和辨认表格,开发了一个叫做“TableNet”的表格检测零碎,该零碎能够自动检测出网页上的表格,并将其转换为结构化的数据。这一技术的呈现极大地推动了表格检测辨认技术的倒退。
2010 年,论文《基于深度学习模型的表格检测》中提出了一种基于深度学习模型的表格检测算法。该论文引入了深度学习技术,提供了一种更加无效的办法来检测表格,为表格检测技术的倒退提供了重要反对。
2011 年,微软研究院在当年的国内图像处理会议上。发表了《表格辨认:基于深度学习的办法》,基于深度学习的表格辨认技术首次呈现,这一技术可能辨认文档中的表格,从而帮忙用户疾速提取文档信息。
2013 年,随着深度学习技术的进一步倒退,表格检测辨认技术也获得了很大的提高,开发出了更加精密的检测和识别系统,可能反对更多简单的文档类型,例如多行表格、多列表格等。
2015 年,基于深度学习的表格检测辨认技术又获得了一个重大突破,Yann Le Cun 传授提出了基于深度神经网络的表格辨认技术,它能够更好的解决简单的表格,且具备较高的检测准确率和辨认精度。
2017 年,Google 公布了第一个基于深度学习的表格检测模型“Google DocumentAI”,该模型能够在任何给定的图像中检测出表格,并将其转换为结构化的数据。这一技术的呈现推动了表格检测辨认技术的倒退。
2018 年,微软公布了一个称为“Azure Table Recognition”的表格检测模型,该模型能够辨认简单的表格,包含多列和多行表格,以及简单构造的表格。同时反对表格构造主动进行抽取,一键提取表格数据,反对将表格数据转换为其余格局,反对在线辨认表格。这一技术的呈现,使表格检测别技术又上了一个新台阶。
2019 年,通过多年钻研,Google 开发了一个称为“TableBank”的表格检测模型,该模型能够自动识别各种类型的表格,并将其转换为结构化的数据。同年,基于深度学习的表格检测辨认技术又获得了又一个重大突破,提出了一种基于自注意力机制的表格检测与辨认技术,它可能无效解决简单的文档表格,且具备更高的准确率和精度。

目前,工业界已涌现了一大批表格检测和辨认的服务。国外的一些大型云服务商曾经在他们的平台上提供了表格检测和辨认的性能,比方亚马逊的 Textact 服务,微软的 Azure 服务等。而在国内,既有一些提供表格检测和辨认等云端根底服务的互联网公司,例如百度、阿里巴巴、腾讯、华为和网易等,也有一些深耕于相干畛域多年的业余服务提供商,例如合合信息等。

从表格构造辨认的成果上看,国内目前曾经处于世界较为当先的程度。2020 年末和 2021 年初由 IBM 公司发动举办了 ICDAR2021 迷信文档解析较量,其中的工作二 – 表格辨认工作,吸引了来自国内外的多个公司、学校加入。国内许多公司都参加了这场较量,其中海康威视提出的 LGPMA 模型和安全科技提出的 TableMaster 模型别离获得了较量的第一、二名。由此可见,在表格检测和构造辨认的钻研畛域,尤其是在利用方面,国内的研究者曾经获得了国内当先的位置。

在表格信息抽取方面,国内的研究者在基于图和基于二维特色网格的办法上居于世界领先地位,PICK,MatchVIE 和 ViBERTGrid 等办法在各类信息抽取工作榜单中居于前列;国外的研究者在基于序列的办法上较为突出,提出了 LAMBERT,TILT 等一系列体现优异的模型,这与国外积攒已久的语言模型倒退教训密不可分,在基于二维特色网格的办法上国外起步更早,提出了 Chargrid 和 BERTgrid 等经典模型,而对于基于图的办法钻研较少。总体而言,近年来国内外研究者对表格内容辨认均有很高的钻研激情,这一畛域的办法也呈现出多样化倒退的趋势。

参考文献:
Kong L J, Bao Y C, Wang Q W and Li H K. 2021. Summary of table detection and recognition algorithms based on deep learning. Computer & Network,47(02):65-73.
Gao L C, Li Y B, Du L, Zhang X P, Zhu Z Y, Lu N, Jin L W, Huang Y S, Tang Z . 2022. A survey on table recognition technology. Journal of Image and Graphics, 27(6): 1898-1917.

正文完
 0