共计 908 个字符,预计需要花费 3 分钟才能阅读完成。
摘要:文档了解着重于从非结构化文档中辨认并提取键值对信息,并将其输入为结构化数据。在过往的信息提取中,大多数工作仅仅只关注于提取文本的实体关系,因而并不适用于间接用于文档了解上。
本文分享自华为云社区《论文解读系列十三:全局信息对于图网络文档解析的影响》,作者:一笑倾城。
1 背景介绍
文档了解着重于从非结构化文档中辨认并提取键值对信息,并将其输入为结构化数据。在过往的信息提取中,大多数工作仅仅只关注于提取文本的实体关系,并不适用于间接用于文档了解上。
在 ICDAR2019 的较量上,参赛者被要求从发票收据等文档中提取键值对信息。因而本文提出了一种蕴含了全局信息,并且联合了视觉信息的图网络结构,来实现从非结构化文档中提取要害信息的工作。
2 网络结构
本文将文档了解工作转化为图节点分类工作。对于文本的全局和部分信息获取:
应用 CLS 抓取全局文本序列的分类信息,生成 w0,并将其与每个独自文本 (w1,w2…,wn) 放在同一输出向量中。通过 BERT 模型,独立地对每个元素进行编码,这样模型领有了部分和全局信息,同时也能对全局和部分文本进行 embedding
对于图片的全局和部分信息获取:应用的是类似的办法,不过是基于 CNN 网络来捕获全局和部分的图像特色
文本和图像特色拼接:将图像特色和文本特色进行特色交融(concat)
网络构建:
给定文档内的一组文本段,构建一个虚构的全局节点作为信息沟通枢纽,这样每两个非相邻节点之间也是 two-hop neighbors, 缩小信息沟通损失的同时全局信息也能很间接输入到部分节点上。
聚合街坊使得每一个节点与 two-hop neighbors 两两之间通过激活函数(leaky-relu)进行模型参数更新,并且应用了 K -attention 来进步模型的能力(通过多个 attention 而后合并所有 attention 的机制)
信息提取:
3 试验后果
在阿里巴巴天池比赛的数据及上成果。
相干融化试验:移除视觉特色后,在天池数据以及 SROIE 上,能显著看出视觉特色能够在提取结构化信息的问题上施展重要的作用。同理,删除全局节点也升高了模型精度,也验证了全局连贯在图构造中的重要性。
点击关注,第一工夫理解华为云陈腐技术~