关于表格:常用的表格检测识别方法表格区域检测方法上
罕用的表格检测识别方法表格检测辨认个别分为三个子工作:表格区域检测、表格构造辨认和表格内容辨认。本章将围绕这三个表格辨认子工作,从传统办法、深度学习办法等方面,综述该畛域国内国外的倒退历史和最新进展,并提供几个先进的模型办法。 3.1 表格区域检测办法 表格检测曾经被钻研了一段较长的工夫。钻研人员应用了不同的办法,能够分为如下: 1.基于启发式的办法 2.基于机器学习的办法 3.基于深度学习的办法 编辑 基于启发式的办法,次要用于20世纪90年代、2000年代和2010年初。他们应用了不同的视觉线索,如线条、关键词、空间特色等,来检测表格。 Pyreddy等人提出了一种应用字符对齐、孔和间隙来检测表格 的办法。Wang等人应用了一种统计办法来依据间断单词之间的间隔来检测表线。将程度间断的单词与垂直相邻的线分组起来,提出候选表实体。Jahan等人提出了一种应用单词间距和线高的部分阈值来检测表格区域的办法。 Itonori提出了一种基于规定的办法,通过文本块排列和规定行地位来定位文档中的表格。 Chandran和Kasturi开发了另一种基于垂直和水平线的表格检测办法。Wonkyo Seo等人应用连接点(水平线和垂直线的交点)检测进行进一步解决。 Hassan等人通过剖析文本块的空间特色来定位和宰割表格。Ruffolo等人介绍了PDF-TREX,这是一种用于单列PDF文档中的表格辨认的启发式自下而上的办法。它应用页面元素的空间特色来将它们对齐和分组为段落和表格。Nurminen提出了一套启发式办法来定位具备公共对齐的后续文本框,并确定它们作为一个表格的概率。 Harit等人提出了一种基于惟一表起始和尾部模式识别的表格检测技术。Tupaj等人提出了一种基于OCR的表格检测技术。该零碎基于关键字搜寻相似表格的行序列,上述办法在具备对立布局的文档上成果比拟好。 国内的表格区域检测钻研起步较晚,启发式办法较少。其中,具备代表性的是Fang等人提出的基于表格结构特征和视觉分隔符的办法。该办法以PDF文档为输出,分四步进行表格检测:PDF解析,页面布局剖析,线条检测和页面分隔符检测,表格检测。在最初的表格检测局部中,通过对上一步检测出的线条和页面分隔符进行剖析失去表格地位。然而,启发式规定须要推广到更宽泛的表格品种,并不真正适宜通用的解决方案。因而,开始采纳机器学习办法来解决表检测问题。 基于机器学习的办法在2000年代和2010年代很常见。 Kieninger等人通过对单词片段进行聚类,利用了一种无监督的学习办法。Cesarini等人应用了一种改良的XY树监督学习办法。Fan等人应用有监督和无监督的办法进行PDF文档中的表格检测。Wang和Hu 将决策树和SVM分类器利用于布局、内容类型和词组特色。T. Kasar等人应用结点检测,而后将信息传递给SVM分类器。Silva等人在视觉页面元素(隐马尔可夫模型)的程序察看上利用联结概率分布,将潜在的表线合并到表中。Klampfl等人比拟了两种来自数字迷信专题文章的无监督表识别方法。Docstrum算法利用KNN将构造聚合成线,而后应用线之间的垂直距离和角度将它们组合成文本块。该算法是在1993年设计的,比本节中提到的其余办法要早。 F Shafait 提出了一种有用的表识别方法,该办法在具备类似布局的文档上体现良好,包含商业报告、新闻故事和杂志页面。Tesseract OCR引擎提供了该算法的一个开源实现。 随着神经网络的趣味,钻研人员开始将它们利用于文档布局剖析工作中。最后,它们被用于更简略的工作,如表检测。起初,随着更简单的架构的倒退,更多的工作被放到表列和整体构造辨认中。 A Gilani [《Table detection using deep learning》]展现了如何应用深度学习来辨认表格。文档图片最后是依照文中提出的办法进行预处理的。而后,这些照片被发送到一个区域候选网络中进行表格测试,而后是一个齐全连贯的神经网络。该办法对各种具备不同布局的文档图片十分准确,包含文档、钻研论文和期刊。 D Prasad [《An approach for end to end table detection and structure recognition from image-based documents》]提出了一种解释文档图片中的表格数据的主动表格检测办法,次要须要解决两个问题:表格检测和表格构造辨认。应用繁多的卷积神经网络(CNN)模型,提供了一个加强的基于深度学习的端到端解决方案,用于处理表检测和构造辨认的挑战。CascadeTabNet是一个基于级联掩码区域的CNN高分辨率网络(Cascade mask R-CNN HRNet)的模型,能够同时辨认表区域和辨认这些表格中的构造单元格。 SS Paliwal [《Tablenet: Deep learning model for end-to-end table detection and tabular data extraction from scanned document images》]提出了一种新的端到端深度学习模型,可用于表格检测和构造辨认。为了划分表格和列区域,该模型应用了表格检测和表构造辨认这两个指标之间的依赖关系。而后,从发现的表格子区域中,进行基于语义规定的行提取。 ...