乐趣区

关于文档:论文解读丨文档结构分析

摘要: 一个端到端的文档构造剖析计划(DocParser),对文档(扫描版、图片版等)进行构造提取,包含实体辨认(这里实体指所有须要检测的元素,包含文本、行、列、单元格等)和关系分类。

本文分享自华为云社区《论文解读系列十五:文档构造剖析》,原文作者:一笑倾城。

1 文章摘要

提出一个端到端的文档构造剖析计划(DocParser),对文档(扫描版、图片版等)进行构造提取,包含实体辨认(这里实体指所有须要检测的元素,包含文本、行、列、单元格等)和关系分类。基于 TEX 和 synctex,通过反向生成 TEX 代码生成弱监督标签。

2 解决方案

给定文档集 D,指标是生成层级构造 T,其中 T 包含实体及实体间的关系 Relations。对于实体,E 指文档中的各种元素,如数字、表、行、单元格等,每个实体包含 3 个个性,1. 语义类别, 2. 检测框(bouding box)的坐标,3. 置信度 (confidence score)。对于 Relations,R 由三元组 (Esubj,Eobj,Ψ) 给定,关系类别 Ψ ∈ {parent of ,followed by,null},null 示意其它无关的实体,例如页眉页脚。

实体 E 及其关系 R 的组合足以重构一个文档的层级构造 T。

难点:实体表面类似、层级嵌套 nested,以及不同文档具备多样性。

2.1 ImageConversion

将输出文档图转化成分辨率为 ρ 的图片,这个分辨率是预约义的,而后所有图片 resize 到固定大小 φ(必要时补零 zero padding);之后图片通过预处理,所有图片的 RGB 通道都类比 MS COCO 数据集进行标准化解决,这么做是为了后续初始化模型的时候利用这个数据集的预训练的权重。

2.2 EntityDetection

利用 Mask R-CNN 结构模型,做图像宰割辨认一个文档图片内的所有实体。这个模型以上一阶段产生的图片作为输出,输入一个实体列表 E1,…,Em。对每一个实体,Mask R-CNN 确定:1)它的方形 bounding box,2)confidence score 置信度,3)a binary segmentation mask(辨别 bounding box 里检测的实体及背景像素 pixel),4)实体的类别标签,共 23 类,CONTENT BLOCK, TABLE, TABLE ROW, TABLE COLUMN, TABLE CELL, TABULAR, FIGURE, HEADING, ABSTRACT, EQUATION, ITEMIZE, ITEM, BIBLIOGRAPHY BLOCK, TABLE CAPTION, FIGURE GRAPHIC, FIGURE CAPTION, HEADER, FOOTER, PAGE NUMBER, DATE, KEYWORDS, AUTHOR, AFFILIATION。

2.3 Relation Classification

根本是启发式的算法。

2.3.1 nesting(parent of)这里分 4 步:

  • h1: Overlaps,通过 IOU 判断检测框之间的重叠关系;
  • h2: Grammar Check,语法查看;
  • h3: Direct Children,对候选列表修整,只保留直系孩子 direct children,sub-children 会被移除;
  • h4: Unique Parents,对候选列表修整,使每个实体只有一个父节点;

2.3.2 ordering (followed by)

实体依据天然浏览顺序排列(比方从左至右)。默认状况下,所有实体都将通过这两种 heuristics 解决:

  • Page Layout Entities 次要是确定页面是单栏布局或多栏布局;
  • Reading Flow: 依据浏览程序重组节点程序;

3 试验后果

在 ICDAR 表格构造剖析的成果:

点击关注,第一工夫理解华为云陈腐技术~

退出移动版