共计 1313 个字符,预计需要花费 4 分钟才能阅读完成。
摘要: 随着用于传递和记录业务信息的治理文档的宽泛应用,可能鲁棒且高效地从这些文档中主动提取和理解内容的办法成为一个迫切的需要。本次解读的文章提出利用图神经网络来解决半结构化文档中的实体辨认(NER)和关系提取问题。
本文分享自华为云社区《论文解读系列十一:图神经网络应用于半结构化文档的命名实体辨认和关系提取》,原文作者:小菜鸟 chg。
摘要:
随着用于传递和记录业务信息的治理文档的宽泛应用,可能鲁棒且高效地从这些文档中主动提取和理解内容的办法成为一个迫切的需要。此外,基于图的表达方法对不同文档模版的变动具备灵便的适应性,从而使得图表达方式与这些治理文档的半结构化个性十分符合。正因为图神经网络(GNN)可能很好地学习出文档中数据元素间的关系,所以本次解读的文章提出利用图神经网络来解决半结构化文档中的实体辨认(NER)和关系提取问题。经试验验证该文章提出的办法在单词分组、实体分类、关系预测三个工作上获得了 SOTA 后果,同时在 FUNSD(表单了解)和 IEHHR(手写婚姻档案了解)两个齐全不同类别的数据集上获得的试验后果进一步验证了本次解读文章所提出的办法的泛化性。
1. 办法
GNN 被广泛应用于 NER 和表格提取等工作中,本次解读的文章在此基础上提出将 GNN 利用于提取 key-value 对的工作中,不仅对文档图片中的实体进行分类,而且还会对实体间的关系进行预测。
给定一个输出文档,模型须要实现的工作包含:(a)单词分组:检测文档实体,行将雷同语义的单词进行分组;(b)实体分类:将检测到的实体分为预设的类别;(c)关系预测:发现实体间配对关系。
(1)图的结构
本次解读的文章提出结构两张图来示意文档,并在此基础上训练三个不同的模型来解决对应的工作:单词分组 f_1f1、实体分类 f_2f2、关系预测 f_3f3。如图 1 所示,文档会被示意为由 OCR 后果结构的图 G_1=(V_1,E_1)G1=(V1,E1),其中 V_1V1是由 OCR 后果中每个单词组成的节点汇合;对每个单词文本框左上角间的间隔进行 kk- 近邻(取 k =10k=10)来生成边 E_1E1,对各边计算分数 s =f_1 (G_1)s=f1(G1),筛选出大于阈值 \tauτ(FUNSD 设为 0.65,IEHHR 设为 0.9)的边就能够失去单词分组的后果。
图 1 单词分组的图构造结构示意图
图 2 实体分类和关系预测的图构造结构示意图
如图 2 所示,在 G_1G1的根底上失去实体(即各单词分组)后,由每个实体结构失去图 G_2=(V_2,E_2)G2=(V2,E2),其中 V_2V2示意由 G_1G1筛选失去的实体汇合,E_2E2是由各实体节点间全连贯失去的边汇合。由 c =f_2 (G_2)c=f2(G2) 失去实体分类后果;由 s =f_3 (G_3)s=f3(G3) 失去关系预测后果。
(2)图的计算
2. 试验后果
从 FUNSD 试验结果表明,本次解读文章提出的办法与 LayoutLM 相比拟还有优化空间,起因可能在于 FUNSD 的数据量较小。从 IEHHR 试验结果表明,该办法在表单辨认的其余畛域即手写记录了解上也具备肯定的成果,体现了其泛化性。
点击关注,第一工夫理解华为云陈腐技术~