摘要: 随着用于传递和记录业务信息的治理文档的宽泛应用,可能鲁棒且高效地从这些文档中主动提取和理解内容的办法成为一个迫切的需要。本次解读的文章提出利用图神经网络来解决半结构化文档中的实体辨认(NER)和关系提取问题。
本文分享自华为云社区《论文解读系列十一:图神经网络应用于半结构化文档的命名实体辨认和关系提取》,原文作者:小菜鸟chg 。
摘要:
随着用于传递和记录业务信息的治理文档的宽泛应用,可能鲁棒且高效地从这些文档中主动提取和理解内容的办法成为一个迫切的需要。此外,基于图的表达方法对不同文档模版的变动具备灵便的适应性,从而使得图表达方式与这些治理文档的半结构化个性十分符合。正因为图神经网络(GNN)可能很好地学习出文档中数据元素间的关系,所以本次解读的文章提出利用图神经网络来解决半结构化文档中的实体辨认(NER)和关系提取问题。经试验验证该文章提出的办法在单词分组、实体分类、关系预测三个工作上获得了SOTA后果,同时在FUNSD(表单了解)和IEHHR(手写婚姻档案了解)两个齐全不同类别的数据集上获得的试验后果进一步验证了本次解读文章所提出的办法的泛化性。
1. 办法
GNN被广泛应用于NER和表格提取等工作中,本次解读的文章在此基础上提出将GNN利用于提取key-value对的工作中,不仅对文档图片中的实体进行分类,而且还会对实体间的关系进行预测。
给定一个输出文档,模型须要实现的工作包含:(a)单词分组:检测文档实体,行将雷同语义的单词进行分组;(b)实体分类:将检测到的实体分为预设的类别;(c)关系预测:发现实体间配对关系。
(1)图的结构
本次解读的文章提出结构两张图来示意文档,并在此基础上训练三个不同的模型来解决对应的工作:单词分组f_1f1、实体分类f_2f2、关系预测f_3f3。如图1所示,文档会被示意为由OCR后果结构的图G_1=(V_1,E_1)G1=(V1,E1),其中V_1V1是由OCR后果中每个单词组成的节点汇合;对每个单词文本框左上角间的间隔进行kk-近邻(取k=10k=10)来生成边E_1E1,对各边计算分数s=f_1 (G_1)s=f1(G1),筛选出大于阈值\tauτ(FUNSD设为0.65, IEHHR设为0.9)的边就能够失去单词分组的后果。
图1 单词分组的图构造结构示意图
图2 实体分类和关系预测的图构造结构示意图
如图2所示,在G_1G1的根底上失去实体(即各单词分组)后,由每个实体结构失去图G_2=(V_2,E_2)G2=(V2,E2),其中V_2V2示意由G_1G1筛选失去的实体汇合,E_2E2是由各实体节点间全连贯失去的边汇合。由c=f_2 (G_2)c=f2(G2)失去实体分类后果;由s=f_3 (G_3)s=f3(G3)失去关系预测后果。
(2)图的计算
2. 试验后果
从FUNSD试验结果表明,本次解读文章提出的办法与LayoutLM相比拟还有优化空间,起因可能在于FUNSD的数据量较小。从IEHHR试验结果表明,该办法在表单辨认的其余畛域即手写记录了解上也具备肯定的成果,体现了其泛化性。
点击关注,第一工夫理解华为云陈腐技术~
发表回复