摘要:一个端到端的文档构造剖析计划(DocParser),对文档(扫描版、图片版等)进行构造提取,包含实体辨认(这里实体指所有须要检测的元素,包含文本、行、列、单元格等)和关系分类。
本文分享自华为云社区《论文解读系列十五:文档构造剖析》,原文作者:一笑倾城。
1 文章摘要
提出一个端到端的文档构造剖析计划(DocParser),对文档(扫描版、图片版等)进行构造提取,包含实体辨认(这里实体指所有须要检测的元素,包含文本、行、列、单元格等)和关系分类。 基于TEX和synctex,通过反向生成TEX代码生成弱监督标签。
2 解决方案
给定文档集D,指标是生成层级构造T,其中T包含实体及实体间的关系Relations。对于实体,E指文档中的各种元素,如数字、表、行、单元格等,每个实体包含3个个性,1. 语义类别, 2. 检测框(bouding box)的坐标,3. 置信度(confidence score)。对于Relations,R由三元组(Esubj,Eobj,) 给定, 关系类别 ∈ {parent of ,followed by,null},null示意其它无关的实体,例如页眉页脚。
实体E及其关系R的组合足以重构一个文档的层级构造T。
难点:实体表面类似、层级嵌套nested,以及不同文档具备多样性。
2.1 ImageConversion
将输出文档图转化成分辨率为的图片,这个分辨率是预约义的,而后所有图片resize到固定大小(必要时补零zero padding); 之后图片通过预处理,所有图片的RGB通道都类比MS COCO数据集进行标准化解决, 这么做是为了后续初始化模型的时候利用这个数据集的预训练的权重。
2.2 EntityDetection
利用 Mask R-CNN结构模型,做图像宰割辨认一个文档图片内的所有实体。这个模型以上一阶段产生的图片作为输出,输入一个实体列表E1,...,Em。对每一个实体, Mask R-CNN确定:1) 它的方形bounding box,2)confidence score置信度,3) a binary segmentation mask (辨别bounding box里检测的实体及背景像素pixel),4) 实体的类别标签, 共23类,CONTENT BLOCK, TABLE, TABLE ROW, TABLE COLUMN, TABLE CELL, TABULAR, FIGURE, HEADING, ABSTRACT, EQUATION, ITEMIZE, ITEM, BIBLIOGRAPHY BLOCK, TABLE CAPTION, FIGURE GRAPHIC, FIGURE CAPTION, HEADER, FOOTER, PAGE NUMBER, DATE, KEYWORDS, AUTHOR, AFFILIATION。
2.3 Relation Classification
根本是启发式的算法 。
2.3.1 nesting( parent of)这里分4步:
- h1: Overlaps,通过IOU判断检测框之间的重叠关系;
- h2: Grammar Check,语法查看;
- h3: Direct Children,对候选列表修整,只保留直系孩子direct children,sub-children会被移除;
- h4: Unique Parents,对候选列表修整,使每个实体只有一个父节点;
2.3.2 ordering (followed by)
实体依据天然浏览顺序排列(比方从左至右)。默认状况下,所有实体都将通过这两种heuristics解决:
- Page Layout Entities次要是确定页面是单栏布局或多栏布局;
- Reading Flow:依据浏览程序重组节点程序;
3 试验后果
在ICDAR表格构造剖析的成果:
点击关注,第一工夫理解华为云陈腐技术~