共计 23063 个字符,预计需要花费 58 分钟才能阅读完成。
本文篇幅较长,倡议配合目录食用分次浏览
3.2 关系抽取的办法
因为传统机器学习的关系抽取办法抉择的特征向量依赖于人工实现,也须要大量畛域专业知识,而深度学习的关系抽取办法通过训练大量数据主动取得模型,不须要人工提取特色。
2006 年 Hinton 等人(《Reducing the dimensionality of data with neural networks》)首次正式提出深度学习的概念。深度学习通过多年的倒退,逐步被研究者利用在实体关系抽取方面。
目前,研究者大多对基于有监督和近程监督 2 种深度学习的关系抽取办法进行深入研究。此外,预训练模型 Bert(bidirectional encoder representation from transformers)自 2018 年提出以来就备受关注,广泛应用于命名实体辨认、关系抽取等多个畛域。
3.2.1 有监督的关系抽取办法
有监督的深度学习关系抽取办法能解决经典办法中存在的人工特征选择、特征提取误差流传 2 大次要问题,将低层特色进行组合,造成更加形象的高层特色,用来寻找数据的分布式特色示意。目前,有监督的关系抽取办法次要有 流水线学习 (pipeline) 和联结学习 (joint) 两种。
3.2.1.1 流水线(pipeline)
学习流水线学习办法 是指在实体辨认曾经实现的根底上间接进行实体之间关系的抽取。晚期的流水式学习办法次要采纳卷积神经网络 (convolutional neural networks,CNNs) 和循环神经网络 (recurrent neural networks,RNNs) 两大类构造。其中,CNNs 多样性卷积核的个性有利于辨认指标的结构特征,而 RNNs 能充分考虑长距离词之间的依赖性,其记忆性能有利于辨认序列。随着深度学习的一直倒退,研究者不断改进和欠缺 CNN 和 RNN 的办法,并产生了许多变体,如长短期记忆网络 (long short term memory,LSTM)、 双向长短期记忆网络 (bidirectional long short term memory,Bi-LSTM) 等,此外,随着图卷积神经网络 (graph convolutional network,GCN) 在自然语言解决畛域的利用,GCN 也越来越多地用于开掘和利用实体间的潜在信息,为解决关系重叠、实体重叠提供了新思路,从而进一步促成了关系抽取的倒退。
① CNN2014 年 Zeng 等人(《Relation classification via convolutional deep neural network》)首次应用 CNN 提取词级和句子级的特色,通过暗藏层和 softmax 层进行关系分类,进步了关系抽取模型的准确性;Liu 等人(《Convolution neural network for relation extraction》)在实体关系抽取方面应用简略的 CNN 模型,该模型次要由输出层、卷积层、池化层和 softmax 层组成,输出词向量和间隔向量等原始数据进行实体关系抽取; 为了打消了文本大小的任意性所带来的不便,Collobert 等人(《Natural language processing (almost) from scratch》)利用设置大小固定的滑动窗口和在输出层和卷积层之上削减 max 层 2 种方法,提出了一种基于 CNN 的自然语言解决模型,不便解决多种工作;Nguyen 等人(《Perspective from convolutional neural networks》)设计了多种窗口尺寸的卷积核的 CNN 模型,能主动学习句子中的隐含特色,最大限度上缩小了对外部工具包和资源的依赖;
Santos 等人(《Classifying relations by ranking with convolutional neural networks》)应用逐对排序这一新的损失函数,无效地区分了关系类别;Xu 等人(《Semantic relation classification via convolutional neural networks with simple negative sampling》)交融卷积神经网络和最短依存门路的劣势进行实体关系抽取,在私有数据集 SemEval 2010Task8 的评估后果中,F1 值为 85.4%,相比于不应用最短依存门路的办法进步了 4.1%,验证了卷积神经网络和最短依存门路联合的有效性;Ye 等人(《Jointly extracting relations with class ties via effective deep ranking》)基于关系类别之间的语义分割,利用 3 种级别的损失函数 AVE,ATT,ExtendedATT,在蕴含 10717 条标注样例的 SemEval-2010 Task 8 中进行模型评估,最佳状况下准确率、召回率、F1 值别离达到了 83.7%,84.7%,84.1%,无效地进步了关系抽取办法的性能;
Fan 等人(《structured minimally supervised learning for neural relation extraction》)提出了一种最小监督关系提取的办法,该办法联合了学习示意和结构化学习的长处,并精确地预测了句子级别关系。通过在学习过程中明确推断缺失的数据,该办法能够实现一维 CNN 的大规模训练,同时缓解近程监管中固有的标签乐音问题。在中文钻研方面,孙建东等人(《Chinese entity relation extraction algorithms based on COAE2016 datasets》)基于 COAE2016 数据集的 988 条训练数据和 937 条测试数据,提出无效联合 SVM 和 CNN 算法能够用于中文实体关系的抽取办法。传统文本实体关系抽取算法少数是基于特征向量对繁多实体对语句进行解决,短少思考文本语法结构及针对多对实体关系的抽取算法; 基于此,高丹等人(《Entity relation extraction based on CNN in large-scale text data》)提出一种基于 CNN 和改良核函数的多实体关系抽取技术,并在 25463 份法律文书的实体关系抽取上,获得了较好的抽取成果和较高的计算效率。
② RNN 除 CNN 关系分类的办法外,Socher 等人(《Semantic compositionality through recursive matrix-vector spaces》)首先采纳 RNN 的办法进行实体关系抽取。该办法利用循环神经网络对标注文本中的句子进行句法解析,通过一直迭代失去了句子的向量示意,无效地思考了句子的句法结构; 面对纯文本的实体关系抽取工作,Lin 等人(《Neural relation extraction with selective attention over instance》)应用了一种多种语言的神经网络关系抽取框架,并在句子级别引入注意力机制(attention),极大地缩小了乐音句子的影响,无效地进步了跨语言的一致性和互补性。因为神经网络常常受到无限标记实例的限度,而且这些关系抽取模型是应用先进的架构和特色来实现最前沿的性能;Chen 等人(《Self-training improves recurrent neural networks performance for temporal relation extraction》)提出一种自我训练框架,并在该框架内构建具备多个语义异构嵌入的递归神经网络。该框架利用标记的、未标记的社交媒体数据集 THYME 实现关系抽取,并且具备较好的可扩展性和可移植性。
③ LSTM∕Bi-LSTM 为了解决 RNN 在自然语言解决工作中呈现的梯度隐没和梯度爆炸带来的困扰,研究者使用性能更为弱小的 LSTM。LSTM 是一种非凡的循环神经网络,最早是 Hochreiter,Schmidhuber 提出。2015 年 Xu 等人(《Classifying relations via long short term memory networks along shortest dependency path》)提出基于 LSTM 的办法进行关系抽取,该办法以句法依存分析树的最短门路为根底,交融词向量、词性、WordNet 以及句法等特色,应用最大池化层、softmax 层等用于关系分类;Zhang 等人(《Bidirectional long short term memory networks for relation classification》)应用了 Bi-LSTM 模型联合以后词语之前和词语之后的信息进行关系抽取,在最佳试验后果中相比于文献 [58] 的办法进步了 14.6%,证实了 Bi-LSTM 在关系抽取上具备有效性。
④ GCN 图神经网络最早由 Gori 等人提出,利用于图构造数据的解决,通过一直倒退,逐步利用于自然语言解决畛域。而图卷积神经网络能无效地示意实体间的关系,开掘实体间的潜在特色,近年来受到了越来越多的关注。Schlichtkrull 等人(《Modeling relational data with graph convolutional networks》)提出应用关系图卷积神经网络 (R-GCNs) 在 2 个规范知识库上别离实现了链接预测和实体分类,其中链接预测抽取出了缺失的关系,实体分类补全了实体缺失的属性; 为无效利用负类数据,Zhang 等人(《Graph convolution over pruned dependency trees improves relation extraction》)提出一种扩大的图卷积神经网络,能够无效地平行解决任意依赖构造,便于对实体关系进行抽取。通过在数据集 TAC 和 SemVal-2010Task8 上的评估,其最佳的试验后果的准确率、召回率、F1 值为 71.3%,65.4%,68.2%,该办法的性能优于序列标注和依赖神经网络。
此外,作者还提出一种新的剪枝策略,对输出的树结构的信息,能够疾速找到 2 个实体之间的最短门路; 图神经网络是最无效的多跳 (multi-hop) 关系推理方法之一,Zhu 等人(《Graph neural networks with generated parameters for relation extraction》)提出一种基于自然语言语句生成图神经网络 (GP-GNNs) 参数的办法,使神经网络可能对无结构化文本输出进行关系推理; 针对多元关系的抽取,Song 等人(《N-ary relation extraction using graph state LSTM》)提出了一种图状的 LSTM 模型,该模型应用并行状态模仿每个单词,通过音讯的重复传递来丰盛单词的状态值。该模型保留了原始图形构造,而且能够通过并行化的形式减速计算。不仅进步了模型的计算效率,也实现了对多元关系的抽取; 为无效利用依赖树的无效信息,缩小无用信息的烦扰,Guo 等人(《Attention guided graph convolutional networks for relation extraction》)提出一种间接以全依赖树为输出的、基于注意力机制的图卷积网络模型。该模型是一种软剪枝 (soft-pruning) 的办法,可能有选择地主动学习对关系提取工作有用的相干子结构,反对跨句多元关系提取和大规模句级关系提取。
⑤ 混合抽取为了进一步提高关系抽取模型的性能,一些研究者开始采取交融多种办法的形式进行关系抽取。2016 年 Miwa 等人(《End-to-end relation extraction using LSTMs on sequences and tree structures》)应用联结的办法,他们交融 Bi-LSTM 和 Tree LSTM 模型的长处对实体和句子同时构建模型,别离在 3 个私有数据集 ACE04,ACE05,SemVal-2010Task8 对关系抽取模型进行评估,无效地进步了实体关系抽取的性能;Zhou 等人 [79] 提出一种基于注意力的 Bi-LSTM,着重思考词对关系分类的影响水平,该办法在只有单词向量的状况下,优于大多数过后的办法;Li 等人 [80] 交融 Bi-LSTM 和 CNN 的特点,利用 softmax 函数来模仿指标实体之间的最短依赖门路(SDP),并用于临床关系提取的句子序列,在数据集 2010i2b2∕VA 的试验后果 F1 为 74.34%,相比于不应用语义特色的办法进步 2.5%;
陈宇等人 [81] 提出一种基于 DBN(deepbeliefnets)的关系抽取办法,通过将 DNB 与 SVM 和传统神经网络 2 种办法在 ACE04 数据集 (蕴含 221 篇音讯文本、10228 个实体和 5240 个关系实例) 进行了比拟,F1 值别离进步了 1.26% 和 2.17%,达到了 73.28%; 召回率别离进步了 3.59% 和 2.92%,达到了 70.86%,验证了 DBN 办法的有效性。此外,DBN 办法表明,字特色比词特色更实用于中文关系抽取工作,十分实用于基于高维空间特色的信息抽取工作。流水线办法的试验后果绝对良好,但容易产生谬误流传,影响关系分类的有效性; 将命名实体辨认和关系抽取离开解决,容易漠视这 2 个子工作之间的分割,失落的信息会影响抽取成果; 另外,冗余信息也会对模型的性能产生较大的影响。为解决这些问题,钻研人员尝试将命名实体辨认和关系抽取交融成一个工作,进行联结学习。
3.2.1.2 联结学习
联结学习办法有 3 种,包含基于参数共享的实体关系抽取办法、基于序列标注的实体关系抽取办法和基于图构造的实体关系抽取办法。
① 基于共享参数的办法
命名实体辨认和关系抽取通过共享编码层在训练过程中产生的共享参数相互依赖,最终训练失去最佳的全局参数。因而,基于共享参数办法无效地改善了流水线办法中存在的谬误累积流传问题和漠视 2 个子工作间关系依赖的问题,进步模型的鲁棒性。2016 年 Miwa 等人(《End-to-end relation extraction using LSTMs on sequences and tree structures》)首次利用循环神经网络、词序列以及依存树将命名实体辨认和关系抽取作为一个工作进行试验,通过共享编码层的 LSTM 的取得最优的全局参数,在数据集 ACE04,ACE05 别离缩小了 5.7% 和 12.1% 的错误率,在数据集 SemEval-2010Task8 的 F1 达到了 84.4%。然而 Miwa 疏忽了实体标签之间的长距离依赖关系,为此 Zheng 等人(《Joint entity and relation extraction based on a hybrid neural network》)将输出句子通过专用的 Embedding 层和 Bi-LSTM 层,别离应用一个 LSTM 进行命名实体辨认和一个 CNN 进行关系抽取,该办法的 F1 达到了 85.3%,绝对 Miwa 进步了近 1%。② 基于序列标注的办法 因为基于共性参数的办法容易产生信息冗余,因而 Zheng 等人(《Joint extraction of entities and relations based on a novel tagging scheme》)将命名实体辨认和实体关系抽取交融成一个序列标注问题,能够同时辨认出实体和关系。该办法利用一个端到端的神经网络模型抽取出实体之间的关系三元组,缩小了有效实体对模型的影响,进步了关系抽取的召回率和准确率,别离为 72.4% 和 43.7%. 为了充分利用实体间有多种关系,Bekoulis 等人(《Joint entity recognition and relation extraction as a multi-head selection problem》)将命名实体辨认和关系抽取看作一个多头抉择问题,能够示意实体间的多个关系; 此外 Bekoulis 等人(《Adversarial training for multi-context joint entity and relation extraction》)还发现对模型退出轻微的扰动 (反抗样本) 能够使得 WordEmbedding 的品质更好,不仅进步了置信度还防止了模型过拟合,模型的性能大大晋升。因而首次将反抗学习 (adversarial training,AT) 退出联结学习的过程中。试验结果表明,在 4 个私有数据集 ACE04,CoNLL04,DREC,ADE 的 F1 进步了 0.4%~0.9%。③ 基于图构造的办法 针对前 2 种办法无奈解决的实体重叠、关系重叠问题,基于图构造的办法能无效得解决。Wang 等人(《Joint extraction of entities and relations based on a novel graph scheme》)发现生成标记序列后的合并三元组标签过程采纳的就近组合无奈解决关系重叠问题,因而提出一种新的基于图架构的联结学习模型。该办法不仅能无效解决关系重叠问题,而且应用偏执权重的损失函数强化了相干实体间的关联,试验后果的准确率、召回率及 F1 值别离为 64.3%,42.1%,50.9%。此外,Fu 等人(《Modeling text as relational graphs for joint entity and relation extraction》)提出将图卷积神经网络用于联结学习,利用图的节点示意实体,边示意关系,无效地解决了关系重叠和实体重叠问题,不仅如此,还对边 (关系) 退出了权重,无效开掘了实体对间的潜在特色,通过应用 NYT 和 WebNLG 数据集的评估,该办法在最佳状况下准确率、召回率及 F1 值可达 63.9%,60.0%,61.9%,与文献《Joint extraction of entities and relations based on a novel graph scheme》相比,召回率和 F1 别离进步 17.9% 和 11.0%。本文选取了几种经典的有监督关系抽取办法进行了综合比拟,具体如表 4 所示。深度学习的有监督办法可能主动地学习大量特色,防止人工抉择特色,但对大量没有进行标记的数据,这种办法就显出其弊病。为了缩小对大数据的标注的人工成本,研究者尝试应用近程监督的办法进行关系抽取。
3.2.2 近程监督的关系抽取办法
针对海量无标记数据的解决,近程监督的实体关系抽取办法极大地缩小了对人工的依赖,能够主动地抽取大量的实体对,从而扩充了知识库的规模。此外,近程监督的办法具备较强的可移植性,比拟容易利用到其余畛域。近程监督的根本假如是如果 2 个实体在己知知识库中存在着某种关系,那么波及这 2 个实体的所有句子都会以某种形式表白这种关系。
Mintz 等人(《Distant supervision for relation extraction without labeled data》)首次在 ACL 会议上将近程监督办法利用于实体关系抽取的工作中。他们将新闻文本与常识图谱 FreeBase 进行中的实体进行对齐,并利用近程监督标注的数据提取文本特色,训练关系分类模型。这类办法在数据标注过程会带来 2 个问题: 乐音数据和抽取特色的误差流传。基于近程监督的根本假如,海量数据的实体对的关系会被谬误标记,从而产生了乐音数据; 因为利用自然语言解决工具抽取的特色也存在肯定的误差,会引起特色的流传误差和谬误积攒。
本文次要针对缩小谬误标签和谬误流传问题对近程监督的关系抽取办法进行论述。
1) 针对谬误标签因为在不同语境下同一对实体关系可能存在不同含意,为了缩小因而而产生的谬误关系标签,Alfonseca 等人 [90] 利用 FreeBase 知识库对关系进行分层解决,以启发式的形式自动识别抽取示意关系的语义和词汇; 因为利用启发式的规定标记实体关系时会产生一些谬误标记,Takamatsu 等人(《Reducing wrong labels in distant supervision for relation extraction》)提出一种产生式模型,用于模仿近程监督的启发式标记过程,应用 903000 篇 Wikipedia 文章进行模型的训练,并应用 400000 篇文章进行测试,试验后果的准确率、召回率和 F1 值别离为 89.0%,83.2%,82.4%;
为了解决 Alfonseca 提出的办法不足实体的常识背景问题,Ji 等人(《Distant supervision for relation extraction with sentence-level attention and entity descriptions》)提出了一种在句子级别引入注意力机制的办法来抽取无效的实例,并通过 FreeBase 和 Wikipedia 一直地裁减实体的常识背景; 之前大多办法对负类数据的利用率较低,Yu 等人 [93] 提出联合从句子级近程监督和半监督集成学习的关系抽取办法,该办法缩小了噪声数据,充分利用了负类数据。该办法首先应用近程监督对齐知识库和语料库,并生成关系实例汇合,接着应用去噪算法打消关系实例集中的噪声并构建数据集。为了充分利用负类数据,该办法将所有正类数据和局部负类数据组成标注数据集,其余的负类数据组成未标注数据集。通过改良的半监督集成学习算法训练关系分类器的各项性能,而后进行关系实例的抽取。
此外,为了缩小谬误标签产生的乐音数据对关系抽取模型的影响,Wang 等人(《Label-free distant supervision for relation extraction via knowledge graph embedding》)提出了一种无标签的近程监督办法; 该办法只是应用了知识库中的关系类型,而由 2 个实体来具体确定关系类型,防止了知识库中的先验常识标签对以后关系类型判断造成影响,也无需应用内部降噪工具包,大大提高了关系抽取的效率和性能; 为了进一步提高对数据的应用效率,Ru 等人(《Using semantic similarity to reduce wrong labels in distant supervision for relation extraction》)应用 Jaccard 算法计算知识库中的关系短语与句子中 2 个实体之间的语义相似性,借此过滤谬误的标签。该办法在缩小谬误标签的过程中,利用具备单词嵌入语义的 Jaccard 算法抉择外围的依赖短语来示意句子中的候选关系,能够提取关系分类的特色,防止以前神经网络模型关系提_取的不相干术语序列引起的负面影响。在关系分类过程中,将 CNN 输出的外围依赖短语用于关系分类。
试验结果表明,与应用原始近程监督数据的办法相比,应用过滤近程监督数据的办法在关系提取方面后果更佳,能够防止来自不相干术语的负面影响; 为了冲破间隔对关系抽取模型性能的限度,Huang 等人(《Distant supervision relationship extraction based on GRU and attention mechanism》)提出一种交融门控循环单元 (gated recurrent unit,GRU) 和注意力机制的近程监督关系抽取办法,该办法解决了传统深度模型的实体在长距离依赖性差和近程监督中容易产生谬误标签的问题; 试验结果表明,文献 [89] 的办法召回率在大于 0.2 时就开始迅速降落,而该办法在整个过程中都绝对稳固,保障了模型的鲁棒性;
此外,通过与文献(《Neural relation extraction with selective attention over instances》)的办法进行比拟,该办法的召回率均匀进步 10%,可能充分利用整个句子的序列信息,更适宜自然语言工作的解决。
2) 针对误差流传 Fan 等人(《Distant supervision for relation extraction with matrix completion》)提出近程监督关系提取的实质是一个具备稠密和噪声特色的不残缺多标签的分类问题。针对该问题,Fan 应用特色标签矩阵的稠密性来复原潜在的低秩矩阵进行实体关系抽取; 为了解决自然语言解决工具包提取问题带来的谬误流传和谬误积攒问题,Zeng 等人(《Adversarial learning for distant supervised relation extraction》)交融 CNN 和近程监督的办法,提出分段卷积神经网络 (piecewise convolutional neural network,PCNN) 用于实体关系抽取,并尝试将基于 CNN 的关系抽取模型扩大到近程监督数据上。
该办法能够无效地缩小了谬误标签的流传和积攒,在最佳状况下,准确率、召回率以及 F1 值达到了 48.30%,29.52%,36.64%。针对目前在中文畛域实体 - 属性提取中模型的低性能,He 等人(《Chinese entity attributes extraction based on bidirectional LSTM networks》)提出了一种基于 Bi-LSTM 的近程监督关系抽取办法。首先,该办法应用 Infobox 的关系三元组获取百度百科的信息框,从互联网获取训练语料库,而后基于 Bi-LSTM 网络训练分类器。与经典办法相比,该办法在数据标注和特征提取方面是全自动的。该办法实用于高维空间的信息提取,与 SVM 算法相比,准确率进步了 12.1%,召回率进步了 1.21%,F1 值进步了 5.9%,准确率和 F1 值得到显著进步。
有监督的关系抽取办法借助人工标注的办法进步了关系抽取的准确性,然而须要消耗大量人力,其畛域泛化能力和迁移性较差。近程监督的办法绝对于有监督的办法极大地缩小了人工成本,而且畛域的迁移性较高。然而,近程监督的办法通过主动标注取得的数据集准确率较低,会影响整个关系抽取模型的性能。因而,目前的近程关系抽取模型的性能依然和有监督的关系抽取模型有肯定的差距,有较大的晋升空间。
基于深度学习的监督和近程监督办法抽取对比方表 5 所示:
3.2.3 BERT
2018 年 GoogleAILanguage 公布了 BERT 模型,该模型在 11 个 NLP 工作上的体现刷新了记录,在自然语言解决学界以及工业界都引起了不小的热议。BERT 的呈现,彻底改变了预训练产生词向量和上游具体 NLP 工作的关系。在关系抽取畛域,利用 BERT 作预训练的关系抽取模型越来越多,如 Shi 等人提出了一种基于 BERT 的简略模型,可用于关系抽取和语义角色标签。在 CoNLL05 数据集中,准确率、召回率和 F1 值别离为 88.6%,89.0%,88.8%,相比于 baseline 办法别离进步了 1.0%,0.6%,0.7%;Shen 等人借助 BERT 的弱小性能对人际关系进行关系抽取,缩小了乐音数据对关系模型的影响。此外,又应用了近程监督能够对大规模数据进行解决,在 CCKS2019evalTask3IPRE 数据集的结果表明,该办法优于大多数人际关系抽取办法,F1 值达到了 57.4%。
BERT 作为一个预训练语言示意模型,通过上下文全向的形式了解整个语句的语义,并将训练学到的常识 (示意) 用于关系抽取等畛域。但 BERT 存在许多不足之处。
1) 不适宜用于长文本。BERT 以基于注意力机制的转换器作为根底,不便于解决长文本,而关系抽取畛域的文本中经常出现超过 30 个单词的长句,BERT 会对关系抽取的性能产生影响。针对长句子的状况,能够另外设计一个深度的注意力机制,以便层级化的捕获关系。
2) 易受到乐音数据的影响。BERT 实用于短文本,而短文本中若呈现不规则示意、错别字等乐音数据,这不仅会对关系触发词的抽取造成肯定的影响,而且在联结学习时进行命名实体辨认阶段也会产生谬误的积攒和流传,最终导致模型的性能降落。
3)无奈较好地解决一词多义问题。因为传统机器学习的关系抽取办法抉择的特征向量依赖于人工实现,也须要大量畛域专业知识,而深度学习的关系抽取办法通过训练大量数据主动取得模型,不须要人工提取特色。
3.2.4 罕用的关系抽取模型 SDP-LSTM
2015 年北大的论文《Classifying Relations via Long Short Term Memory Networks along Shortest Dependency Paths》中提出了一种新的神经网络 SDP-LSTM,用于对句子中两个实体之间的关系进行分类。SDP-LSTM 的神经体系结构利用了两个实体之间的最短依赖门路(SDP); 具备长短期记忆单元的多通道递归神经网络沿着 SDP 提取异质信息。
该模型具备以下特点:
(1)最短的依赖门路保留了大部分相干信息 (对关系分类),同时剔除了句子中不相干的词。
(2) 多通道 LSTM 网络容许异构源在依赖门路上进行无效的信息集成。
(3)自定义 dropout 策略对神经网络进行正则化,以缓解过拟合。试验在 SemEval2010 关系分类工作上测试了 SDP-LSTM 的模型,取得了 83.7% 的 f1 得分,高于文献中的竞争办法。
SDP-LSTM 的算法原理:
以“A trillion gallons of water have been poured into an empty region of outer space”为例,下图为其依存解析树。红线示意实体水和区域之间的最短依赖门路。边 a→b 示意 a 由 b governed。
依赖类型由解析器标记,但为了清晰起见,图中未显示。
下图是 SDP-LSTM 的模型构架图:
首先 ,由斯坦福解析器将句子解析为依赖树,而后提取最短依赖门路(SDP) 作为网络的输出。沿着 SDP,四种不同类型的信息被作为通道应用,包含单词、POS 标签、语法关系和 WordNet 上位词。(参见图 2)。在每个通道中,离散的输出,例如单词,被映射到实值向量,称为嵌入,它捕捉输出的潜在含意。两个 RNN 网络 (图 2b) 别离沿着 SDP 的左右子门路拾取信息。(门路由两个实体的独特先人节点分隔。)长短期记忆 (LSTM) 单元用于循环网络中无效的信息流传。
而后最大池化层从每个门路的 LSTM 节点收集信息。来自不同通道的池化层被连接起来,而后连贯到一个暗藏层。最初,SDP-LSTM 有一个用于分类的 softmax 输入层。
最短的依赖门路(The shortest dependency path)
依赖解析树天然适宜于关系分类,因为它关注的是句子中的动作和代理。此外,如上文所探讨的,实体之间的最短门路稀释了最有启发性的实体关系信息。还能够察看到,由两个实体的独特先人节点分隔的子门路,为关系的方向性提供了强有力的提醒。
以图 1 为例。两个实体 water 和 region 有它们独特的先人节点倾倒,它将 SDP 分成两局部:
第一个子门路获取 e1 的信息,而第二个子门路次要是对于 e2 的信息。通过别离查看这两个子门路,咱们晓得 e1 和 e2 是实体 - 目的地 (e1,e2) 关系,而不是实体 - 目的地 (e2,e1) 关系。根据上述剖析,论文设计了两个 RNN 网络,它们自下而上地从实体流传到它们独特的源头。通过这种形式,DSPLSTM 的模型是方向敏感的。
通道(channels)
论文利用四种类型的信息沿着 SDP 进行关系分类。咱们称它们为通道,因为这些信息源在循环流传期间不相互作用。
具体的通道形容如下。
- 单词示意。通过查问单词嵌入表,将给定句子中的每个单词映射到实值向量。在大型语料库上进行无监督训练的词语嵌入被认为可能很好地捕获词语的句法和语义信息。
- 词性标记 。因为词嵌入是在一个大规模的通用语料库上取得的,因而其蕴含的信息可能与特定的句子不统一。咱们解决这个问题的办法是将每个输出的单词与其词性标记(例如名词、动词等) 联结起来。在咱们的试验中,咱们只应用了一个粗粒度的 POS 类别,其中蕴含 15 个不同的标签。
- 语法关系。统治词和它的子词之间的从属关系造成了意义上的差别。同一个词对可能有不同的依赖关系类型。在 DSPLSTM 的试验中,语法关系被分为 19 类,次要基于粗粒度分类。
- WordNet 上位词 。如上文所示,上下位关系信息对关系分类也很有用。(此处不再赘述。) 为了利用 WordNet 上位词,DSPLSTM 应用了 Ciaramita 和 Altun(2006)开发的工具。该工具从 WordNet 中的 41 个预约义概念 (如名词) 中为每个词指定一个上位词。食物,动词。静止等。有了上名,每个词都有了一个更形象的概念,这有助于在不同但概念相近的词之间建立联系。
正如所看到的,POS 标记、语法关系和 WordNet 上位词也是离散的(就像单词自身一样)。然而,目前还没有针对 POS 标签的嵌入学习办法。因而,随机初始化它们的嵌入,并在训练期间以有监督的形式调整它们。
研究员留神到,这些信息源蕴含的符号比词汇量 (大于 25,000) 少得多。因而,研究员认为他们的随机初始化策略是可行的,因为通道能够在有监督的训练中失去充沛的调优。
LSTM
RNN 网络实质上适宜于序列数据的建模,因为它保留了一个暗藏状态向量,并且在每一步都随着输出数据的变动而变动。咱们应用递归网络沿着 SDP 中的每个子门路收集信息(图 2b)。对于子门路中的第 t 个单词的暗藏状态是它以前的状态 ht- 1 和以后单词 xt 的函数。传统递归网络具备根本的相互作用,即输出由权矩阵线性变换,并由激活函数非线性压缩。
模式上,咱们有
其中,Win 和 Wrec 别离为输出连贯和递归连贯的权值矩阵。bh 是暗藏状态向量的偏置项,fh 是非线性激活函数(例如,tanh)。
上述模型的一个问题是梯度隐没或爆炸。神经网络的训练须要梯度反向流传。如果流传序列 (门路) 太长,梯度可能会按指数增长或衰减,这取决于 Wrec 的大小。这就导致了训练的艰难。
《The vanishing gradient problem during learning recurrent neural nets and problem solutions.》提出了长短期记忆 (LSTM) 单元来解决这一问题。其次要思维是引入一种自适应门控机制,该机制决定 LSTM 单元在多大程度上放弃了之前的状态,并记住了提取的以后输出数据的特色。文献中提出了许多 LSTM 变体。DSPLSTM 的办法中采纳了《Learning to execute》引入的变体,《Long short-term memory over tree structures》也应用了该变体。
具体来说,基于 lstm 的 RNN 网络包含四个组成部分: 输出门 it、忘记门 ft、输入门和记忆细胞(如图 3 所示,并通过公式 1 - 6 进行了形式化,如下图所示)。
三个自适应门 it,ft 和 ot 取决于先前的状态 ht- 1 和电流输出 xt(公式 1 – 3)。依据公式 4 计算提取的特征向量 gt 作为候选记忆单元。
以后记忆细胞 ct 是先前细胞内容 ct−1 和候选内容 gt 的组合,别离由输出门 it 和忘记门 ft 加权。(见下式 5)
LSTM 单元的输入为递归网络的暗藏状态,由式 6 计算失去。
式中,σ 为二阶函数,⊗为逐元乘法。
Dropout 策略
须要一种良好的正则化办法来缓解过拟合。Dropout 是由 Hinton 等人(提出的,在前馈网络中曾经十分胜利。通过在训练过程中随机地从网络中省略特色检测器,能够取得无相互依赖的网络单元,从而取得更好的性能。然而,传统的 dropout 算法在带有 LSTM 单元的递归神经网络中并不能很好地工作,因为 dropout 可能会侵害记忆单元的贵重记忆能力。
因为文献中对于如何退出 LSTM 单元没有共识,论文尝试了以下几种 Dropout 策略,用于 SDP-LSTM 网络:
- Dropout embeddings
- 在记忆单元外部 Dropout,包含 it、gt、ot、ct、ht
- 在倒数第二层进行 Dropout
正如前文中看到的,放弃 LSTM 单元对咱们的模型是不利的,而其余两种策略能够进步性能。
上面的方程形式化了嵌入层上的 Dropout 操作,其中 D 示意退出算子。嵌入向量 xt 中的每个维度都设置为零,并具备预约义的 Dropout 率。
训练指标
下面形容的 SDP-LSTM 沿着从实体到 (两个实体的) 独特先人节点的子门路流传信息。最大池化层将每个子门路的递归网络状态 h 打包成一个固定的向量,办法是在每个维度取最大值。
这种体系结构实用于所有通道,即单词、POS 标记、语法关系和 WordNet 上位词。这些通道中的池向量被连接起来,并提供给一个齐全连贯的暗藏层。最初,咱们增加了一个用于分类的 softmax 输入层。训练指标为惩办穿插熵误差,为
其中 t∈Rnc 为 one-hot 编码表示的 ground truth(正确的数据),y∈Rnc 为 softmax 对每个类的预计概率。||·|| F 为矩阵的 Frobenius 范数,ω 和 υ 为权重矩阵的个数(别离为 W 和 U)。λ 是一个超参数,它指定权重惩办的大小。
在英语维基百科语料库上通过 word2vec 事后训练单词嵌入; 其余参数是随机初始化的。DSPLSTM 应用随机梯度降落 (minibatch 10) 进行优化; 梯度是通过规范的反向流传来计算的。培训细节将在第 4.2 节中进一步介绍。
试验
DSPLSTM 施行建设在《Discriminative neural sentence modeling by tree-based convolution》的根底上。
数据集
SemEval-2010 Task 8 数据集是关系分类中宽泛应用的基准。数据集蕴含 8000 个用于训练的句子,2717 个用于测试的句子。试验从训练集中拆散出 1 /10 的样本用于验证。指标蕴含 19 个标签:9 个有向关系和一个无向 Other 类。
有向关系列表如下。
- 因果关系
- 组件 - 整体
- 内容 - 容器
- 实体 - 目的地
- 实体 - 起源
- 音讯 - 主题
- 成员 - 汇合
- 工具 - 代理
- 产品 - 生产商
上面是两个有向关系的例句。
数据集还蕴含一个无向 Other 类。因而总共有 19 个指标标签。无向 Other 类不属于上述类别的实体,如下例所示。
试验应用官网的 f1 宏观均匀分数来评估模型的体现。这个官网测量不包含“Other 关系”。然而在试验中并没有特地看待 Other 类,这在其余钻研中是很典型的。
试验后果
Hendrickx 等人(2010《Semeval-2010 task 8: Multi-way classification of semantic relations between pairs of nominals.》) 利用各种手工特色,并应用 SVM 进行分类,f1 得分为 82.2%。
神经网络首次用于这项工作是在 Socher 等人 (2012《Semi-supervised recursive autoencoders for predicting sentiment distributions.》)。他们沿着选区树建设 RNN 进行关系分类。他们将根本 RNN 扩大为矩阵 - 向量交互,f1 得分为 82.4%。
Zeng 等人 (2014《Relation classification via convolutional deep neural network.》) 将句子作为序列数据,利用卷积神经网络 (CNN); 他们还将单词地位信息整合到他们的模型中。Santos 等人(2015《Classifying relations by ranking with convolutional neural networks.》) 设计了一个名为 CR-CNN 的模型; 他们提出了一个基于排名的老本函数,并精心缩小了“other 类”的影响,而“other 类”在官网的 f1 测量中没有被计算在内。通过这种形式,他们获得了最先进的后果,f1 得分为 84.1%。如果没有这样的非凡待遇,他们的 f1 得分是 82.7%。
Yu 等人 (2014《Factor-based compositional embedding models.》) 提出了一种用于关系分类的特色丰盛的成分嵌入模型(FCM),该模型联合了非词汇化的语言上下文和单词嵌入。他们的 f1 得分为 83.0%。
SDP-LSTM 模型的 f1 得分为 83.7%。在具备穿插熵误差的 softmax 条件下,该办法优于现有的竞争办法。
值得注意的是,论文还进行了两个对照试验:
(1) 不含 LSTM 单元的传统 RNN,f1 得分为 82.8%;
(2) LSTM 网络覆盖整个依赖门路(而不是两个子门路),f1 得分为 82.2%。这些后果证实了 LSTM 在关系分类中的有效性和方向性。
![图片]
不同 Channels 的影响
试验还剖析了不同的 Channels 如何影响模型。试验首先应用单词嵌入作为基线; 而后别离增加 POS 标签、语法关系和 WordNet 上位词,试验还将所有这些通道合并到模型中。请留神,试验并没有独自尝试后三个通道,因为每一个通道 (例如,POS) 并不携带太多信息。
从表 2 中能够看出,SDP-LSTM 单词嵌入的性能达到了 82.35%,而 CNN 69.7%,RNN 74.9-79.1%,FCM 80.6%。
增加语法关系或 WordNet 上位词比其余现有办法性能更好(这里不思考数据清理)。POS 标签的信息量绝对较小,但仍能使 f1 得分进步 0.63%。
能够留神到,当通道合并时,增益并不是简略地增加。这表明这些信息源在语言的某些方面是互补的。然而,综合上述四个渠道,f1 得分将进一步升至 83.70%。
论断:
SDP-LSTM 提出了一种新的用于关系分类的神经网络模型。它沿着最短的依赖门路迭代地学习关系分类的特色。沿着门路应用几种类型的信息(单词自身、POS 标记、语法关系和 WordNet 上位词)。同时,利用 LSTM 单元进行近程信息流传和集成。通过在 SemEval-2010 关系分类工作上对 SDP-LSTM 模型进行评估,证实了 SDP-LSTM 的有效性,优于现有的先进办法(在没有数据清理的偏心条件下)。试验的后果为以下关系分类工作提供了一些启发。
•最短依赖门路是关系分类的贵重资源,涵盖了指标关系的大部分充沛信息。
•因为自然语言固有的歧义性和句子表白的多样性,分类关系是一项具备挑战性的工作。因而,整合异质语言常识对实现工作是有帮忙的。
•将最短的依赖门路视为两个子门路,映射两个不同的神经网络,有助于捕获关系的方向性。
•LSTM 单元可能无效地沿着最短的依赖门路进行特色检测和流传
Att-BiLSTM
2015 年中国科学院发表的论文《Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification》中提出了基于注意力机制的 BiLSTM 网络(Att-BiLSTM)用于关系分类,它能够利用 BiLSTM 和 Attention 机制,该机制能够主动关注对分类有决定性影响的单词,从而捕捉句子中最重要的语义信息,而无需应用额定的常识和 NLP 零碎。
Att-BiLSTM 算法原理:
模型次要由五个局部组成:
(1)输出层:在此模型中输出句子;
(2) 嵌入层:将每个单词映射到低维向量中;
给定一个由 T 个单词 S ={x1,x2,…,xT}组成的句子,每个单词 xi 都转换为实值向量 ei。对于 S 中的每个单词,咱们首先查找嵌入矩阵 Wwrd∈ Rdw | V |,其中 V 是固定大小的词汇表,dw 是单词嵌入的大小。矩阵 Wwrd 是须要学习的参数,dw 是须要用户抉择的超参数。咱们应用矩阵向量积将单词 xi 转换为单词嵌入 ei:
其中,vi 是大小为 | V | 的向量,其在索引 ei 处的值为 1,在所有其余地位的值为 0。而后句子作为实值向量 embs={e1,e2,…,eT}馈送到下一层。
(3) LSTM 层:利用 BiLSTM 从步骤(2)中获取高级特色;
采纳 Graves 等人(2013)引入的一种变体,该变体将恒定谬误转盘(CEC)的加权 peephole connections 增加到同一内存块的门。通过间接应用以后单元状态生成门度,peephole connections 容许所有门进入单元进行查看(即以后单元状态),即便输入门敞开
通常,四个组件组合基于 LSTM 的递归神经网络:一个输出门 it 与相应的权重矩阵 Wxi、Whi、Wci、bi;一个忘记门 ft,对应权重矩阵 Wxf、Whf、Wcf、bf;一个输入门 ot 具备相应的权重矩阵 Wxo、Who、Wco、bo,所有这些门都设置为生成肯定的度,应用以后输出 xi,状态 hi−1 生成的上一步骤,以及此单元格的以后状态 ci−1(窥视孔),用于决定是否进行输出,遗记之前存储的内存,并输入当前生成的状态。
(4)Attention 层:生成权重向量,将每个工夫步的单词级特色乘以权重向量,合并成句子级特征向量;
(5) 输入层:最终应用句子级特征向量进行关系分类。
(6)Attention 层:设 H 是由 LSTM 层产生的输入向量 [h1,h2,…,hT] 组成的矩阵,其中 T 是句子长度。句子的示意 r 由这些输入向量的加权和形成:
其中 H∈ Rdw×T,dw 是词向量的维数,w 是经过训练的参数向量,wT 是转置。w,α,r 的维数别离为 dw,T,dw 从下式获取用于分类的最终句子对示意:
(7)输入层:将最初一层的句子级别的特征向量用于关系分类应用 softmax 分类器从一组离散的类 y 中为句子 S 预测标签 yˆ。该分类器采纳暗藏状态 h∗ 作为输出:
试验后果:
试验数据集为 SemEval-2010 Task 8,该数据集蕴含 8000 个训练句子,2717 个测试句子,一共蕴含 9 个关系类和一个 Other 关系类,若思考关系双向性则可认为是 19 个类。
Att-BiLSTM 模型的 F1 得分为 84.0%。它的性能优于大多数现有的竞争办法,无需应用词汇资源(如 WordNet)或 NLP 零碎(如依赖项解析器和 NER)来获取高维度特色。试验后果如下图所示:
论断 :
本文提出了一种新的关系分类神经网络模型 Att BLSTM。该模型不依赖 NLP 工具或词法资源,而是应用带有地位指示器的原始文本作为输出。通过在 SemEval-2010 关系分类工作中对模型进行评估,证实了 Att-BiLSTM 的有效性。
- PCNN
- 2015 年中国科学院发表论文《Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks》,论文中提出了一种新型的关系抽取模型 PCNN。
在应用近程监控进行关系提取时,会呈现两个问题。首先,该办法将已有的知识库与文本进行对齐,对齐后果作为标记数据处理。然而,对齐可能会失败,导致谬误的标签问题。此外,在以前的办法中,统计模型通常利用于非凡特色。特征提取过程中产生的噪声可能会导致性能不佳。
为了解决这两个问题,提出了一种称为分段卷积神经网络(PCNNs)的多实例学习模型。为了解决第一个问题,将近程监督关系抽取视为一个多实例问题,其中思考了实例标签的不确定性。为了解决后一个问题,PCNN 防止了特色工程,而是采纳具备分段最大池的卷积体系结构来主动学习相干特色。
PCNN 用于主动学习特色,无需简单的 NLP 预处理。下图显示了用于近程监督关系提取的神经网络体系结构。它阐明了解决一个实例的过程。该过程包含四个次要局部:向量示意(Vector Representation),卷积层(Convolution),成对最大池化(Piecewise Max Pooling)和 softmax 输入(Softmax Output)
- 向量示意:网络的输出是原始单词标记。应用神经网络时,通常将单词标记转换为低维向量。在 PCNN 办法中,通过查找预训练的单词嵌入,将每个输出单词标记转换为一个向量。此外,PCNN 还应用地位特色(PFs)指定实体对,并通过查找地位嵌入将实体对转换为向量。
- 词嵌入(word embeddings):单词嵌入是单词的分布式示意,将文本中的每个单词映射到“k”维实值向量。应用 skip-gram 模型来训练词向量
- 地位嵌入(position embeddings):应用 PFs(地位特色)指定实体对。PF 定义为以后单词到 e1 和 e2 的绝对间隔的组合。如下图,单词 son 到实体 Kojo Annan 和 Kofi Annan 的绝对间隔别离为 3 和 -2。
随机初始化两个地位嵌入矩阵(PF1 和 PF2),而后通过查找地位嵌入矩阵将绝对间隔转换为实值向量。图中词嵌入的维度 dω=4,地位嵌入的维度 dp=1。联合词嵌入和地位嵌入,句向量示意为
其中,s 是句子长度(单词数),d = dω+ d p ∗ 2
- 卷积:在关系提取中,标记为蕴含指标实体的输出句子仅对应于关系类型;它不会预测每个单词的标签。因而,可能须要利用所有部分特色并全局执行该预测。当应用神经网络时,卷积办法是很好的合并所有这些特色的办法。
卷积是权重向量 w 和被视为序列 q 的输出向量之间的运算。权重矩阵 w 被视为卷积的 filter。在图 3 所示的示例中,咱们假如 filter 的长度为 w(w=3);因而,w∈ Rm(m=w∗d)。咱们认为 S 是序列{q1,q2,··,qs},其中 qi∈ Rd. 一般来说,让 qi:j 示意 qi 到 qj 的连贯。卷积运算波及取 w 与序列 q 中每个 w -gram 的点积,以取得另一个序列 c∈ R s+w-1:
其中,指数 j 的范畴为 1 到 s +w−1. 超出范围的输出值 qi,其中 i <1 或 i >s,取零。捕捉不同特色的能力通常须要在卷积中应用多个滤波器(或特色映射)。假如咱们应用 n 个滤波器(W={w1,w2,··,wn}),卷积运算能够示意为以下模式:
卷积后果是矩阵 C ={c1,c2,···,cn}∈ Rn×(s+w−1). 图 3 显示了在卷积过程中应用 3 个不同滤波器的示例
- 成对最大池化
卷积输入矩阵 C∈ Rn×(s+w−1)的大小取决于输出网络的句子中令牌的数量。为了利用后续层,必须组合卷积层提取的特色,使其与句子长度无关。
只管单个最大池被宽泛应用,但这种办法不足以进行关系提取。单个最大池将暗藏层的大小升高得太快,太粗,无奈捕捉细粒度特色以进行关系提取。此外,单个最大池不足以捕捉两个实体之间的构造信息。在关系提取中,输出句子能够依据所选的两个实体分为三个局部。因而,PCNN 提出了一种分段最大池化过程,该过程返回每个段中的最大值,而不是单个最大值。
如上图所示,Kojo Annan 和 Kofi Annan 将每个卷积滤波器 ci 的输入分成三段{ci1、ci2、ci3}。分段最大池过程能够示意为:
对于每个卷积滤波器的输入,能够取得三维向量 pi={pi1,pi2,pi3}。而后,连贯所有向量 p1:n 并利用非线性函数,例如双曲正切。最初,分段最大池过程输入一个向量:
其中 g∈ R3n。g 的大小是固定的,不再与句子长度相干。
softmax 输入
最初通过 softmax 并输入
为了缓解谬误标签问题提出多实例学习
为了缓解谬误标签问题,对 PCNN 应用多实例学习。基于 PCNNs 的关系提取能够示意为五元组 θ =(E,PF1,PF2,W,W1)。进入网络的是一个 bag。假如有 T 个 bag{M1,M2,··,MT},并且第 i 个 bag 蕴含 qi 实例 Mi={m1 i,m2 i,··,mqi i}。多实例学习的指标是事后记录看不见的 bag 的标签。在本文中,一个 bag 中的所有实例都是独立思考的。给定输出实例 mj i,具备参数 θ 的网络输入向量 o,其中第 r 重量或对应于与关系 r 相干的分数。为了取得条件概率 p(r | m,θ),对所有关系类型利用 softmax 运算:
多实例学习的指标是辨别 bag 而不是实例。为此,咱们必须定义 bsg 的指标函数。给定所有(T)个训练 bag(Mi,yi),咱们能够在包级别应用穿插熵定义指标函数,如下所示:
应用该定义的指标函数,应用 Adadelta(Zeiler,2012)更新规定通过随机梯度降落在 mini-batches 上最大化 J(θ)。整个训练过程在算法 1 中形容。从上述介绍中,能够晓得传统的反向流传算法依据所有训练实例批改网络,而带有多实例学习的反向流传批改基于 bag 的网络。因而,PCNN 办法捕捉到了近程监督关系提取的实质,其中一些训练实例将不可避免地被谬误标记。当应用经过训练的 PCNN 进行预测时,当且仅当网络在其至多一个实例上的输入被调配正标签时,才对 bag 进行正标签。
试验后果:
试验选用 NYT corpus 作为数据集,失去如下图所示的试验比照后果。为了评估所提出的办法,试验抉择以下三种传统办法进行比拟。Mintz 代表了(Mintz 等人,2009)提出的一种基于间隔监控的传统模型。MultiR 是由(Hoffmann 等人,2011)提出的一种多实例学习办法。MIML 是由(Surdeanu 等人,2012)提出的多实例多标签模型。图 4 显示了每种办法的精度召回曲线,其中 PCNNs+MIL 示意 PCNN 办法,并证实 PCNNs+MIL 在整个召回范畴内实现了更高的精度。PCNNs+MIL 将召回率进步到大概 34%,而不会损失任何精度。在精确度和召回率方面,PCNNs+MIL 优于所有其余评估办法。值得注意的是,评估用于比拟的办法的后果是应用手工制作的特色取得的。相比之下,PCNN 后果是通过主动学习原始单词的特色来取得的。结果表明,该办法是一种无效的近程监督关系提取办法。通过 PCNN 主动学习特色能够缓解传统特征提取中呈现的谬误流传。将多实例学习合并到卷积神经网络中是解决谬误标签问题的无效办法。
值得强调的是,在非常低的召回率下,PCNNs+MIL 的放弃精度召回曲线急剧下降(图 4)。对高置信度生成的谬误分类示例进行手动查看后发现,这些示例中的大多数是误判,实际上是因为 Freebase 的不完整性而谬误分类的实在关系实例。因而,保留的评估在 Freebase 中会呈现谬误否定。咱们执行手动评估以打消这些问题。
对于手动评估,PCNN 抉择至多一个参加实体在 Freebase 中不存在的实体对作为候选。这意味着持有的候选人和手工候选人之间没有重叠。因为测试数据中示意的关系实例的数量未知,因而咱们无奈计算这种状况下的召回率。相同,咱们计算前 N 个提取的关系实例的精度。表 2 显示了前 100、前 200 和前 500 个提取实例的手动评估精度。
结果表明,PCNNs+MIL 的性能最好;此外,精度高于所进行的评估。这一发现表明,咱们预测的许多谬误否定事实上是实在的相干事实。因而,在放弃精度召回曲线中察看到的急剧下降是正当的。
PCNN 提出了一种分段最大池的办法,并将多实例学习融入到卷积神经网络中,用于近程监督关系提取。为了证实这两种技术的成果,试验通过 Held-out 评估来实证钻研这些技术未实现的零碎的性能(图 5)。CNNs 示意利用单个最大池的卷积神经网络。图 5 显示,当应用 PCNNs 时,会产生比应用 CNN 更好的后果。
此外,与 CNNs+MIL 相比,当召回率大于 0.08 时,PCNNs 的准确率略高。因为所有模型的参数都是通过网格搜寻确定的,因而能够察看到,当减少卷积神经网络的隐层大小时,CNN 无奈取得与 PCNN 相比的竞争后果。这意味着咱们无奈通过简略地减少网络参数来捕捉更多有用的信息。这些结果表明,所提出的分段最大池技术是无益的,能够无效地捕捉构造信息以进行关系提取。
在网络中退出多实例学习时,也察看到相似的景象。CNNs+MIL 和 PCNNs+MIL 别离优于 CNNs 和 PCNNs,从而证实将多实例学习纳入神经网络可能胜利地解决谬误标签问题。正如预期的那样,PCNNs+MIL 取得了最佳后果,因为这两种技术的劣势是同时实现的。
论断:
利用具备多实例学习的分段卷积神经网络(PCNN)进行近程监督关系提取,在 PCNN 的办法中,无需简单的 NLP 预处理即可主动学习特色。PCNN 还胜利地在所提出的网络中设计了一个分段最大池层来捕捉构造信息,并联合多实例学习来解决谬误标签问题。试验结果表明,与同类办法相比,该办法具备显著的改良
参考文献:
- 李冬梅,张扬,李东远,林丹琼 . 实体关系抽取办法钻研综述[J]. 计算机钻研与倒退,2020,57(7)
- Yan Xu, Lili Mou, Ge Li, Yunchuan Chen, Hao Peng, Zhi Jin,“Classifying Relations via Long Short Term Memory Networks along Shortest Dependency Paths ,”arXiv:1508.03720v1 [cs.CL] 15 Aug 2015
- Daojian Zeng, Kang Liu, Yubo Chen and Jun Zhao,“Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks ,”Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, pages 1753–1762
- Peng Zhou, Wei Shi, Jun Tian, Zhenyu Qi, Bingchen Li, Hongwei Hao, Bo Xu,“Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classifification ,”Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, pages 207–212