关于机器学习:技术白皮书第三章-2-关系抽取的方法

本文篇幅较长，倡议配合目录食用分次浏览

3.2 关系抽取的办法

因为传统机器学习的关系抽取办法抉择的特征向量依赖于人工实现，也须要大量畛域专业知识，而深度学习的关系抽取办法通过训练大量数据主动取得模型，不须要人工提取特色。

2006年Hinton 等人（《Reducing the dimensionality of data with neural networks》）首次正式提出深度学习的概念。深度学习通过多年的倒退，逐步被研究者利用在实体关系抽取方面。

目前，研究者大多对基于有监督和近程监督2种深度学习的关系抽取办法进行深入研究。此外，预训练模型Bert(bidirectional encoder representation from transformers)自2018年提出以来就备受关注，广泛应用于命名实体辨认、关系抽取等多个畛域。

3.2.1 有监督的关系抽取办法

有监督的深度学习关系抽取办法能解决经典办法中存在的人工特征选择、特征提取误差流传2大次要问题，将低层特色进行组合，造成更加形象的高层特色，用来寻找数据的分布式特色示意。目前，有监督的关系抽取办法次要有流水线学习(pipeline)和联结学习(joint)两种。

3.2.1.1 流水线(pipeline)

学习流水线学习办法是指在实体辨认曾经实现的根底上间接进行实体之间关系的抽取。晚期的流水式学习办法次要采纳卷积神经网络(convolutional neural networks， CNNs)和循环神经网络(recurrent neural networks， RNNs)两大类构造。其中，CNNs多样性卷积核的个性有利于辨认指标的结构特征，而RNNs能充分考虑长距离词之间的依赖性，其记忆性能有利于辨认序列。随着深度学习的一直倒退，研究者不断改进和欠缺CNN 和RNN 的办法，并产生了许多变体，如长短期记忆网络(long short term memory， LSTM)、双向长短期记忆网络(bidirectional long short term memory， Bi-LSTM)等，此外，随着图卷积神经网络(graph convolutional network， GCN)在自然语言解决畛域的利用，GCN 也越来越多地用于开掘和利用实体间的潜在信息，为解决关系重叠、实体重叠提供了新思路，从而进一步促成了关系抽取的倒退。

① CNN2014年Zeng等人（《Relation classification via convolutional deep neural network》）首次应用CNN 提取词级和句子级的特色，通过暗藏层和softmax层进行关系分类，进步了关系抽取模型的准确性;Liu等人（《Convolution neural network for relation extraction》）在实体关系抽取方面应用简略的CNN 模型，该模型次要由输出层、卷积层、池化层和softmax层组成，输出词向量和间隔向量等原始数据进行实体关系抽取;为了打消了文本大小的任意性所带来的不便，Collobert等人（《Natural language processing (almost) from scratch》）利用设置大小固定的滑动窗口和在输出层和卷积层之上削减max层2种方法，提出了一种基于CNN 的自然语言解决模型，不便解决多种工作;Nguyen等人（《Perspective from convolutional neural networks》）设计了多种窗口尺寸的卷积核的CNN 模型，能主动学习句子中的隐含特色，最大限度上缩小了对外部工具包和资源的依赖;

Santos等人（《Classifying relations by ranking with convolutional neural networks》）应用逐对排序这一新的损失函数，无效地区分了关系类别;Xu等人（《Semantic relation classification via convolutional neural networks with simple negative sampling》）交融卷积神经网络和最短依存门路的劣势进行实体关系抽取，在私有数据集SemEval 2010Task8的评估后果中，F1值为85.4%，相比于不应用最短依存门路的办法进步了4.1%，验证了卷积神经网络和最短依存门路联合的有效性;Ye等人（《Jointly extracting relations with class ties via effective deep ranking》）基于关系类别之间的语义分割，利用3 种级别的损失函数AVE，ATT，ExtendedATT，在蕴含10717条标注样例的SemEval-2010 Task 8中进行模型评估，最佳状况下准确率、召回率、F1值别离达到了83.7%，84.7%，84.1%，无效地进步了关系抽取办法的性能;

Fan等人（《structured minimally supervised learning for neural relation extraction》）提出了一种最小监督关系提取的办法，该办法联合了学习示意和结构化学习的长处，并精确地预测了句子级别关系。通过在学习过程中明确推断缺失的数据，该办法能够实现一维CNN 的大规模训练，同时缓解近程监管中固有的标签乐音问题。在中文钻研方面，孙建东等人（《Chinese entity relation extraction algorithms based on COAE2016 datasets》）基于COAE2016数据集的988条训练数据和937条测试数据，提出无效联合SVM 和CNN 算法能够用于中文实体关系的抽取办法。传统文本实体关系抽取算法少数是基于特征向量对繁多实体对语句进行解决，短少思考文本语法结构及针对多对实体关系的抽取算法;基于此，高丹等人（《Entity relation extraction based on CNN in large-scale text data》）提出一种基于CNN 和改良核函数的多实体关系抽取技术，并在25463份法律文书的实体关系抽取上，获得了较好的抽取成果和较高的计算效率。

② RNN除CNN 关系分类的办法外，Socher等人（《Semantic compositionality through recursive matrix-vector spaces》）首先采纳RNN 的办法进行实体关系抽取。该办法利用循环神经网络对标注文本中的句子进行句法解析，通过一直迭代失去了句子的向量示意，无效地思考了句子的句法结构;面对纯文本的实体关系抽取工作，Lin等人（《Neural relation extraction with selective attention over instance》）应用了一种多种语言的神经网络关系抽取框架，并在句子级别引入注意力机制(attention)，极大地缩小了乐音句子的影响，无效地进步了跨语言的一致性和互补性。因为神经网络常常受到无限标记实例的限度，而且这些关系抽取模型是应用先进的架构和特色来实现最前沿的性能;Chen 等人（《Self-training improves recurrent neural networks performance for temporal relation extraction》）提出一种自我训练框架，并在该框架内构建具备多个语义异构嵌入的递归神经网络。该框架利用标记的、未标记的社交媒体数据集THYME实现关系抽取，并且具备较好的可扩展性和可移植性。

③ LSTM∕Bi-LSTM为了解决RNN 在自然语言解决工作中呈现的梯度隐没和梯度爆炸带来的困扰，研究者使用性能更为弱小的LSTM。LSTM 是一种非凡的循环神经网络，最早是Hochreiter，Schmidhuber提出。2015年Xu等人（《Classifying relations via long short term memory networks along shortest dependency path》）提出基于LSTM 的办法进行关系抽取，该办法以句法依存分析树的最短门路为根底，交融词向量、词性、WordNet以及句法等特色，应用最大池化层、softmax 层等用于关系分类;Zhang 等人（《Bidirectional long short term memory networks for relation classification》）应用了Bi-LSTM 模型联合以后词语之前和词语之后的信息进行关系抽取，在最佳试验后果中相比于文献[58]的办法进步了14.6%，证实了Bi-LSTM 在关系抽取上具备有效性。

④ GCN图神经网络最早由Gori等人提出，利用于图构造数据的解决，通过一直倒退，逐步利用于自然语言解决畛域。而图卷积神经网络能无效地示意实体间的关系，开掘实体间的潜在特色，近年来受到了越来越多的关注。Schlichtkrull等人（《Modeling relational data with graph convolutional networks》）提出应用关系图卷积神经网络(R-GCNs)在2个规范知识库上别离实现了链接预测和实体分类，其中链接预测抽取出了缺失的关系，实体分类补全了实体缺失的属性;为无效利用负类数据，Zhang等人（《Graph convolution over pruned dependency trees improves relation extraction》）提出一种扩大的图卷积神经网络，能够无效地平行解决任意依赖构造，便于对实体关系进行抽取。通过在数据集TAC和SemVal-2010Task8上的评估，其最佳的试验后果的准确率、召回率、F1值为71.3%，65.4%，68.2%，该办法的性能优于序列标注和依赖神经网络。

此外，作者还提出一种新的剪枝策略，对输出的树结构的信息，能够疾速找到2个实体之间的最短门路;图神经网络是最无效的多跳(multi-hop)关系推理方法之一，Zhu等人（《Graph neural networks with generated parameters for relation extraction》）提出一种基于自然语言语句生成图神经网络(GP-GNNs)参数的办法，使神经网络可能对无结构化文本输出进行关系推理;针对多元关系的抽取，Song等人（《N-ary relation extraction using graph state LSTM》）提出了一种图状的LSTM 模型，该模型应用并行状态模仿每个单词，通过音讯的重复传递来丰盛单词的状态值。该模型保留了原始图形构造，而且能够通过并行化的形式减速计算。不仅进步了模型的计算效率，也实现了对多元关系的抽取;为无效利用依赖树的无效信息，缩小无用信息的烦扰，Guo等人（《Attention guided graph convolutional networks for relation extraction》）提出一种间接以全依赖树为输出的、基于注意力机制的图卷积网络模型。该模型是一种软剪枝(soft-pruning)的办法，可能有选择地主动学习对关系提取工作有用的相干子结构，反对跨句多元关系提取和大规模句级关系提取。

⑤ 混合抽取为了进一步提高关系抽取模型的性能，一些研究者开始采取交融多种办法的形式进行关系抽取。2016年Miwa等人（《End-to-end relation extraction using LSTMs on sequences and tree structures》）应用联结的办法，他们交融Bi-LSTM 和Tree LSTM 模型的长处对实体和句子同时构建模型，别离在3 个私有数据集ACE04，ACE05，SemVal-2010Task8对关系抽取模型进行评估，无效地进步了实体关系抽取的性能;Zhou等人[79]提出一种基于注意力的Bi-LSTM，着重思考词对关系分类的影响水平，该办法在只有单词向量的状况下，优于大多数过后的办法;Li等人[80]交融Bi-LSTM 和CNN 的特点，利用softmax函数来模仿指标实体之间的最短依赖门路(SDP)，并用于临床关系提取的句子序列，在数据集2010i2b2∕VA 的试验后果F1为74.34%，相比于不应用语义特色的办法进步2.5%;

陈宇等人[81]提出一种基于DBN(deepbeliefnets)的关系抽取办法，通过将DNB与SVM 和传统神经网络2种办法在ACE04数据集(蕴含221篇音讯文本、10228个实体和5240个关系实例)进行了比拟，F1 值别离进步了1.26% 和2.17%，达到了73.28%;召回率别离进步了3.59%和2.92%，达到了70.86%，验证了DBN 办法的有效性。此外，DBN 办法表明，字特色比词特色更实用于中文关系抽取工作，十分实用于基于高维空间特色的信息抽取工作。流水线办法的试验后果绝对良好，但容易产生谬误流传，影响关系分类的有效性;将命名实体辨认和关系抽取离开解决，容易漠视这2个子工作之间的分割，失落的信息会影响抽取成果;另外，冗余信息也会对模型的性能产生较大的影响。为解决这些问题，钻研人员尝试将命名实体辨认和关系抽取交融成一个工作，进行联结学习。

3.2.1.2 联结学习

联结学习办法有3种，包含基于参数共享的实体关系抽取办法、基于序列标注的实体关系抽取办法和基于图构造的实体关系抽取办法。

① 基于共享参数的办法
命名实体辨认和关系抽取通过共享编码层在训练过程中产生的共享参数相互依赖，最终训练失去最佳的全局参数。因而，基于共享参数办法无效地改善了流水线办法中存在的谬误累积流传问题和漠视2个子工作间关系依赖的问题，进步模型的鲁棒性。2016年Miwa等人（《End-to-end relation extraction using LSTMs on sequences and tree structures》）首次利用循环神经网络、词序列以及依存树将命名实体辨认和关系抽取作为一个工作进行试验，通过共享编码层的LSTM 的取得最优的全局参数，在数据集ACE04，ACE05别离缩小了5.7%和12.1%的错误率，在数据集SemEval-2010Task8的F1达到了84.4%。然而Miwa疏忽了实体标签之间的长距离依赖关系，为此Zheng等人（《Joint entity and relation extraction based on a hybrid neural network》）将输出句子通过专用的Embedding层和Bi-LSTM 层，别离应用一个LSTM 进行命名实体辨认和一个CNN 进行关系抽取，该办法的F1达到了85.3%，绝对Miwa进步了近1%。② 基于序列标注的办法因为基于共性参数的办法容易产生信息冗余，因而Zheng等人（《Joint extraction of entities and relations based on a novel tagging scheme》）将命名实体辨认和实体关系抽取交融成一个序列标注问题，能够同时辨认出实体和关系。该办法利用一个端到端的神经网络模型抽取出实体之间的关系三元组，缩小了有效实体对模型的影响，进步了关系抽取的召回率和准确率，别离为72.4%和43.7%.为了充分利用实体间有多种关系，Bekoulis等人（《Joint entity recognition and relation extraction as a multi-head selection problem》）将命名实体辨认和关系抽取看作一个多头抉择问题，能够示意实体间的多个关系;此外Bekoulis等人（《Adversarial training for multi-context joint entity and relation extraction》）还发现对模型退出轻微的扰动(反抗样本)能够使得WordEmbedding的品质更好，不仅进步了置信度还防止了模型过拟合，模型的性能大大晋升。因而首次将反抗学习(adversarial training， AT)退出联结学习的过程中。试验结果表明，在4个私有数据集ACE04，CoNLL04，DREC，ADE的F1进步了0.4%~0.9%。③ 基于图构造的办法针对前2种办法无奈解决的实体重叠、关系重叠问题，基于图构造的办法能无效得解决。Wang等人（《Joint extraction of entities and relations based on a novel graph scheme》）发现生成标记序列后的合并三元组标签过程采纳的就近组合无奈解决关系重叠问题，因而提出一种新的基于图架构的联结学习模型。该办法不仅能无效解决关系重叠问题，而且应用偏执权重的损失函数强化了相干实体间的关联，试验后果的准确率、召回率及F1值别离为64.3%，42.1%，50.9%。此外，Fu等人（《Modeling text as relational graphs for joint entity and relation extraction》）提出将图卷积神经网络用于联结学习，利用图的节点示意实体，边示意关系，无效地解决了关系重叠和实体重叠问题，不仅如此，还对边(关系)退出了权重，无效开掘了实体对间的潜在特色，通过应用NYT 和WebNLG 数据集的评估，该办法在最佳状况下准确率、召回率及F1 值可达63.9%，60.0%，61.9%，与文献《Joint extraction of entities and relations based on a novel graph scheme》相比，召回率和F1别离进步17.9%和11.0%。本文选取了几种经典的有监督关系抽取办法进行了综合比拟，具体如表4所示。深度学习的有监督办法可能主动地学习大量特色，防止人工抉择特色，但对大量没有进行标记的数据，这种办法就显出其弊病。为了缩小对大数据的标注的人工成本，研究者尝试应用近程监督的办法进行关系抽取。

3.2.2 近程监督的关系抽取办法

针对海量无标记数据的解决，近程监督的实体关系抽取办法极大地缩小了对人工的依赖，能够主动地抽取大量的实体对，从而扩充了知识库的规模。此外，近程监督的办法具备较强的可移植性，比拟容易利用到其余畛域。近程监督的根本假如是如果2个实体在己知知识库中存在着某种关系，那么波及这2个实体的所有句子都会以某种形式表白这种关系。

Mintz等人（《Distant supervision for relation extraction without labeled data》）首次在ACL会议上将近程监督办法利用于实体关系抽取的工作中。他们将新闻文本与常识图谱FreeBase进行中的实体进行对齐，并利用近程监督标注的数据提取文本特色，训练关系分类模型。这类办法在数据标注过程会带来2个问题:乐音数据和抽取特色的误差流传。基于近程监督的根本假如，海量数据的实体对的关系会被谬误标记，从而产生了乐音数据;因为利用自然语言解决工具抽取的特色也存在肯定的误差，会引起特色的流传误差和谬误积攒。

本文次要针对缩小谬误标签和谬误流传问题对近程监督的关系抽取办法进行论述。

1) 针对谬误标签因为在不同语境下同一对实体关系可能存在不同含意，为了缩小因而而产生的谬误关系标签，Alfonseca等人[90]利用FreeBase知识库对关系进行分层解决，以启发式的形式自动识别抽取示意关系的语义和词汇;因为利用启发式的规定标记实体关系时会产生一些谬误标记，Takamatsu等人（《Reducing wrong labels in distant supervision for relation extraction》）提出一种产生式模型，用于模仿近程监督的启发式标记过程，应用903000篇Wikipedia文章进行模型的训练，并应用400000篇文章进行测试，试验后果的准确率、召回率和F1 值别离为89.0%，83.2%，82.4%;

为了解决Alfonseca提出的办法不足实体的常识背景问题，Ji等人（《Distant supervision for relation extraction with sentence-level attention and entity descriptions》）提出了一种在句子级别引入注意力机制的办法来抽取无效的实例，并通过FreeBase和Wikipedia一直地裁减实体的常识背景;之前大多办法对负类数据的利用率较低，Yu等人[93]提出联合从句子级近程监督和半监督集成学习的关系抽取办法，该办法缩小了噪声数据，充分利用了负类数据。该办法首先应用近程监督对齐知识库和语料库，并生成关系实例汇合，接着应用去噪算法打消关系实例集中的噪声并构建数据集。为了充分利用负类数据，该办法将所有正类数据和局部负类数据组成标注数据集，其余的负类数据组成未标注数据集。通过改良的半监督集成学习算法训练关系分类器的各项性能，而后进行关系实例的抽取。

此外，为了缩小谬误标签产生的乐音数据对关系抽取模型的影响，Wang等人（《Label-free distant supervision for relation extraction via knowledge graph embedding》）提出了一种无标签的近程监督办法;该办法只是应用了知识库中的关系类型，而由2个实体来具体确定关系类型，防止了知识库中的先验常识标签对以后关系类型判断造成影响，也无需应用内部降噪工具包，大大提高了关系抽取的效率和性能;为了进一步提高对数据的应用效率，Ru等人（《Using semantic similarity to reduce wrong labels in distant supervision for relation extraction》）应用Jaccard算法计算知识库中的关系短语与句子中2个实体之间的语义相似性，借此过滤谬误的标签。该办法在缩小谬误标签的过程中，利用具备单词嵌入语义的Jaccard算法抉择外围的依赖短语来示意句子中的候选关系，能够提取关系分类的特色，防止以前神经网络模型关系提_取的不相干术语序列引起的负面影响。在关系分类过程中，将CNN 输出的外围依赖短语用于关系分类。

试验结果表明，与应用原始近程监督数据的办法相比，应用过滤近程监督数据的办法在关系提取方面后果更佳，能够防止来自不相干术语的负面影响;为了冲破间隔对关系抽取模型性能的限度，Huang等人（《Distant supervision relationship extraction based on GRU and attention mechanism》）提出一种交融门控循环单元(gated recurrent unit， GRU)和注意力机制的近程监督关系抽取办法，该办法解决了传统深度模型的实体在长距离依赖性差和近程监督中容易产生谬误标签的问题;试验结果表明，文献[89]的办法召回率在大于0.2时就开始迅速降落，而该办法在整个过程中都绝对稳固，保障了模型的鲁棒性;

此外，通过与文献（《Neural relation extraction with selective attention over instances》）的办法进行比拟，该办法的召回率均匀进步10%，可能充分利用整个句子的序列信息，更适宜自然语言工作的解决。

2) 针对误差流传Fan等人（《Distant supervision for relation extraction with matrix completion》）提出近程监督关系提取的实质是一个具备稠密和噪声特色的不残缺多标签的分类问题。针对该问题，Fan应用特色标签矩阵的稠密性来复原潜在的低秩矩阵进行实体关系抽取;为了解决自然语言解决工具包提取问题带来的谬误流传和谬误积攒问题，Zeng等人（《Adversarial learning for distant supervised relation extraction》）交融CNN 和近程监督的办法，提出分段卷积神经网络(piecewise convolutional neural network， PCNN)用于实体关系抽取，并尝试将基于CNN 的关系抽取模型扩大到近程监督数据上。

该办法能够无效地缩小了谬误标签的流传和积攒，在最佳状况下，准确率、召回率以及F1值达到了48．30%，29．52%，36．64%。针对目前在中文畛域实体-属性提取中模型的低性能，He等人（《Chinese entity attributes extraction based on bidirectional LSTM networks》）提出了一种基于Bi-LSTM 的近程监督关系抽取办法。首先，该办法应用Infobox的关系三元组获取百度百科的信息框，从互联网获取训练语料库，而后基于Bi-LSTM 网络训练分类器。与经典办法相比，该办法在数据标注和特征提取方面是全自动的。该办法实用于高维空间的信息提取，与SVM 算法相比，准确率进步了12．1%，召回率进步了1．21%，F1值进步了5．9%，准确率和F1值得到显著进步。

有监督的关系抽取办法借助人工标注的办法进步了关系抽取的准确性，然而须要消耗大量人力，其畛域泛化能力和迁移性较差。近程监督的办法绝对于有监督的办法极大地缩小了人工成本，而且畛域的迁移性较高。然而，近程监督的办法通过主动标注取得的数据集准确率较低，会影响整个关系抽取模型的性能。因而，目前的近程关系抽取模型的性能依然和有监督的关系抽取模型有肯定的差距，有较大的晋升空间。

基于深度学习的监督和近程监督办法抽取对比方表5所示:

3.2.3 BERT

2018年GoogleAILanguage公布了BERT模型，该模型在11个NLP工作上的体现刷新了记录，在自然语言解决学界以及工业界都引起了不小的热议。BERT的呈现，彻底改变了预训练产生词向量和上游具体NLP工作的关系。在关系抽取畛域，利用BERT 作预训练的关系抽取模型越来越多，如Shi等人提出了一种基于BERT的简略模型，可用于关系抽取和语义角色标签。在CoNLL05数据集中，准确率、召回率和F1值别离为88．6%，89．0%，88．8%，相比于baseline办法别离进步了1．0%，0．6%，0．7%;Shen等人借助BERT的弱小性能对人际关系进行关系抽取，缩小了乐音数据对关系模型的影响。此外，又应用了近程监督能够对大规模数据进行解决，在CCKS2019evalTask3IPRE数据集的结果表明，该办法优于大多数人际关系抽取办法，F1值达到了57．4%。

BERT作为一个预训练语言示意模型，通过上下文全向的形式了解整个语句的语义，并将训练学到的常识(示意)用于关系抽取等畛域。但BERT 存在许多不足之处。

1) 不适宜用于长文本。BERT 以基于注意力机制的转换器作为根底，不便于解决长文本，而关系抽取畛域的文本中经常出现超过30个单词的长句，BERT会对关系抽取的性能产生影响。针对长句子的状况，能够另外设计一个深度的注意力机制，以便层级化的捕获关系。
2) 易受到乐音数据的影响。BERT 实用于短文本，而短文本中若呈现不规则示意、错别字等乐音数据，这不仅会对关系触发词的抽取造成肯定的影响，而且在联结学习时进行命名实体辨认阶段也会产生谬误的积攒和流传，最终导致模型的性能降落。
3）无奈较好地解决一词多义问题。因为传统机器学习的关系抽取办法抉择的特征向量依赖于人工实现，也须要大量畛域专业知识，而深度学习的关系抽取办法通过训练大量数据主动取得模型，不须要人工提取特色。

3.2.4 罕用的关系抽取模型SDP-LSTM

2015年北大的论文《Classifying Relations via Long Short Term Memory Networks along Shortest Dependency Paths》中提出了一种新的神经网络SDP-LSTM，用于对句子中两个实体之间的关系进行分类。SDP-LSTM的神经体系结构利用了两个实体之间的最短依赖门路(SDP);具备长短期记忆单元的多通道递归神经网络沿着SDP提取异质信息。

该模型具备以下特点:
(1)最短的依赖门路保留了大部分相干信息(对关系分类)，同时剔除了句子中不相干的词。
(2)多通道LSTM网络容许异构源在依赖门路上进行无效的信息集成。
(3)自定义dropout策略对神经网络进行正则化，以缓解过拟合。试验在SemEval2010关系分类工作上测试了SDP-LSTM的模型，取得了83.7%的f1得分，高于文献中的竞争办法。

SDP-LSTM的算法原理：

以 “A trillion gallons of water have been poured into an empty region of outer space”为例，下图为其依存解析树。红线示意实体水和区域之间的最短依赖门路。边a→b示意a由b governed。

依赖类型由解析器标记，但为了清晰起见，图中未显示。

下图是SDP-LSTM的模型构架图：

首先，由斯坦福解析器将句子解析为依赖树，而后提取最短依赖门路(SDP)作为网络的输出。沿着SDP，四种不同类型的信息被作为通道应用，包含单词、POS标签、语法关系和WordNet上位词。(参见图2)。在每个通道中，离散的输出，例如单词，被映射到实值向量，称为嵌入，它捕捉输出的潜在含意。两个RNN网络(图2b)别离沿着SDP的左右子门路拾取信息。(门路由两个实体的独特先人节点分隔。)长短期记忆(LSTM)单元用于循环网络中无效的信息流传。

而后最大池化层从每个门路的LSTM节点收集信息。来自不同通道的池化层被连接起来，而后连贯到一个暗藏层。最初，SDP-LSTM有一个用于分类的softmax输入层。

最短的依赖门路（The shortest dependency path）

依赖解析树天然适宜于关系分类，因为它关注的是句子中的动作和代理。此外，如上文所探讨的，实体之间的最短门路稀释了最有启发性的实体关系信息。还能够察看到，由两个实体的独特先人节点分隔的子门路，为关系的方向性提供了强有力的提醒。

以图1为例。两个实体water和region有它们独特的先人节点倾倒，它将SDP分成两局部:

第一个子门路获取e1的信息，而第二个子门路次要是对于e2的信息。通过别离查看这两个子门路，咱们晓得e1和e2是实体-目的地(e1，e2)关系，而不是实体-目的地(e2， e1)关系。根据上述剖析，论文设计了两个RNN网络，它们自下而上地从实体流传到它们独特的源头。通过这种形式，DSPLSTM的模型是方向敏感的。

通道（channels）

论文利用四种类型的信息沿着SDP进行关系分类。咱们称它们为通道，因为这些信息源在循环流传期间不相互作用。

具体的通道形容如下。

单词示意。通过查问单词嵌入表，将给定句子中的每个单词映射到实值向量。在大型语料库上进行无监督训练的词语嵌入被认为可能很好地捕获词语的句法和语义信息。
词性标记。因为词嵌入是在一个大规模的通用语料库上取得的，因而其蕴含的信息可能与特定的句子不统一。咱们解决这个问题的办法是将每个输出的单词与其词性标记(例如名词、动词等)联结起来。在咱们的试验中，咱们只应用了一个粗粒度的POS类别，其中蕴含15个不同的标签。
语法关系。统治词和它的子词之间的从属关系造成了意义上的差别。同一个词对可能有不同的依赖关系类型。在DSPLSTM的试验中，语法关系被分为19类，次要基于粗粒度分类。
WordNet上位词。如上文所示，上下位关系信息对关系分类也很有用。(此处不再赘述。)为了利用WordNet上位词，DSPLSTM应用了Ciaramita和Altun(2006)开发的工具。该工具从WordNet中的41个预约义概念(如名词)中为每个词指定一个上位词。食物，动词。静止等。有了上名，每个词都有了一个更形象的概念，这有助于在不同但概念相近的词之间建立联系。

正如所看到的，POS标记、语法关系和WordNet上位词也是离散的(就像单词自身一样)。然而，目前还没有针对POS标签的嵌入学习办法。因而，随机初始化它们的嵌入，并在训练期间以有监督的形式调整它们。

研究员留神到，这些信息源蕴含的符号比词汇量(大于25，000)少得多。因而，研究员认为他们的随机初始化策略是可行的，因为通道能够在有监督的训练中失去充沛的调优。

LSTM
RNN网络实质上适宜于序列数据的建模，因为它保留了一个暗藏状态向量，并且在每一步都随着输出数据的变动而变动。咱们应用递归网络沿着SDP中的每个子门路收集信息(图2b)。
对于子门路中的第t个单词的暗藏状态是它以前的状态ht-1和以后单词xt的函数。传统递归网络具备根本的相互作用，即输出由权矩阵线性变换，并由激活函数非线性压缩。

模式上，咱们有

其中，Win和Wrec别离为输出连贯和递归连贯的权值矩阵。bh是暗藏状态向量的偏置项，fh是非线性激活函数(例如，tanh)。

上述模型的一个问题是梯度隐没或爆炸。神经网络的训练须要梯度反向流传。如果流传序列(门路)太长，梯度可能会按指数增长或衰减，这取决于Wrec的大小。这就导致了训练的艰难。

《The vanishing gradient problem during learning recurrent neural nets and problem solutions.》提出了长短期记忆(LSTM)单元来解决这一问题。其次要思维是引入一种自适应门控机制，该机制决定LSTM单元在多大程度上放弃了之前的状态，并记住了提取的以后输出数据的特色。文献中提出了许多LSTM变体。DSPLSTM的办法中采纳了《Learning to execute》引入的变体，《Long short-term memory over tree structures》也应用了该变体。

具体来说，基于lstm的RNN网络包含四个组成部分:输出门it、忘记门ft、输入门和记忆细胞(如图3所示，并通过公式1-6进行了形式化，如下图所示)。

三个自适应门it， ft和ot取决于先前的状态ht-1和电流输出xt(公式1 - 3)。依据公式4计算提取的特征向量gt作为候选记忆单元。

以后记忆细胞ct是先前细胞内容ct−1和候选内容gt的组合，别离由输出门it和忘记门ft加权。(见下式5)

LSTM单元的输入为递归网络的暗藏状态，由式6计算失去。

式中，为二阶函数，⊗为逐元乘法。

Dropout 策略
须要一种良好的正则化办法来缓解过拟合。Dropout是由Hinton等人(提出的，在前馈网络中曾经十分胜利。通过在训练过程中随机地从网络中省略特色检测器，能够取得无相互依赖的网络单元，从而取得更好的性能。然而，传统的dropout算法在带有LSTM单元的递归神经网络中并不能很好地工作，因为dropout可能会侵害记忆单元的贵重记忆能力。

因为文献中对于如何退出LSTM单元没有共识，论文尝试了以下几种Dropout策略，用于SDP-LSTM网络:

Dropout embeddings
在记忆单元外部Dropout，包含it、gt、ot、ct、ht
在倒数第二层进行Dropout

正如前文中看到的，放弃LSTM单元对咱们的模型是不利的，而其余两种策略能够进步性能。

上面的方程形式化了嵌入层上的Dropout操作，其中D示意退出算子。嵌入向量xt中的每个维度都设置为零，并具备预约义的Dropout率。

训练指标
下面形容的SDP-LSTM沿着从实体到(两个实体的)独特先人节点的子门路流传信息。最大池化层将每个子门路的递归网络状态h打包成一个固定的向量，办法是在每个维度取最大值。

这种体系结构实用于所有通道，即单词、POS标记、语法关系和WordNet上位词。这些通道中的池向量被连接起来，并提供给一个齐全连贯的暗藏层。最初，咱们增加了一个用于分类的softmax输入层。训练指标为惩办穿插熵误差，为

其中t∈Rnc为one-hot编码表示的ground truth（正确的数据）， y∈Rnc为softmax对每个类的预计概率。||·||F为矩阵的Frobenius范数，和为权重矩阵的个数(别离为W和U)。是一个超参数，它指定权重惩办的大小。

在英语维基百科语料库上通过word2vec事后训练单词嵌入;其余参数是随机初始化的。DSPLSTM应用随机梯度降落(minibatch 10)进行优化;梯度是通过规范的反向流传来计算的。培训细节将在第4.2节中进一步介绍。

试验
DSPLSTM施行建设在《Discriminative neural sentence modeling by tree-based convolution》的根底上。

数据集
SemEval-2010 Task 8数据集是关系分类中宽泛应用的基准。数据集蕴含8000个用于训练的句子，2717个用于测试的句子。试验从训练集中拆散出1/10的样本用于验证。指标蕴含19个标签:9个有向关系和一个无向Other类。
有向关系列表如下。

因果关系
组件-整体
内容-容器
实体-目的地
实体-起源
音讯-主题
成员-汇合
工具-代理
产品-生产商

上面是两个有向关系的例句。

数据集还蕴含一个无向Other类。因而总共有19个指标标签。无向Other类不属于上述类别的实体，如下例所示。

试验应用官网的f1宏观均匀分数来评估模型的体现。这个官网测量不包含“Other关系”。然而在试验中并没有特地看待Other 类，这在其余钻研中是很典型的。

试验后果
Hendrickx 等人(2010《Semeval-2010 task 8: Multi-way classification of semantic relations between pairs of nominals.》)利用各种手工特色，并应用SVM进行分类，f1得分为82.2%。

神经网络首次用于这项工作是在Socher 等人 (2012《Semi-supervised recursive autoencoders for predicting sentiment distributions.》)。他们沿着选区树建设RNN进行关系分类。他们将根本RNN扩大为矩阵-向量交互，f1得分为82.4%。

Zeng 等人(2014《Relation classification via convolutional deep neural network.》)将句子作为序列数据，利用卷积神经网络(CNN);他们还将单词地位信息整合到他们的模型中。Santos等人(2015《Classifying relations by ranking with convolutional neural networks.》)设计了一个名为CR-CNN的模型;他们提出了一个基于排名的老本函数，并精心缩小了“other类”的影响，而“other类”在官网的f1测量中没有被计算在内。通过这种形式，他们获得了最先进的后果，f1得分为84.1%。如果没有这样的非凡待遇，他们的f1得分是82.7%。

Yu等人(2014《Factor-based compositional embedding models.》)提出了一种用于关系分类的特色丰盛的成分嵌入模型(FCM)，该模型联合了非词汇化的语言上下文和单词嵌入。他们的f1得分为83.0%。

SDP-LSTM模型的f1得分为83.7%。在具备穿插熵误差的softmax条件下，该办法优于现有的竞争办法。

值得注意的是，论文还进行了两个对照试验:
(1) 不含LSTM单元的传统RNN， f1得分为82.8%;
(2) LSTM网络覆盖整个依赖门路(而不是两个子门路)，f1得分为82.2%。这些后果证实了LSTM在关系分类中的有效性和方向性。
![图片]
不同Channels的影响

试验还剖析了不同的Channels如何影响模型。试验首先应用单词嵌入作为基线;而后别离增加POS标签、语法关系和WordNet上位词，试验还将所有这些通道合并到模型中。请留神，试验并没有独自尝试后三个通道，因为每一个通道(例如，POS)并不携带太多信息。

从表2中能够看出，SDP-LSTM单词嵌入的性能达到了82.35%，而CNN 69.7%， RNN 74.9-79.1%，FCM 80.6%。

增加语法关系或WordNet上位词比其余现有办法性能更好(这里不思考数据清理)。POS标签的信息量绝对较小，但仍能使f1得分进步0.63%。

能够留神到，当通道合并时，增益并不是简略地增加。这表明这些信息源在语言的某些方面是互补的。然而，综合上述四个渠道，f1得分将进一步升至83.70%。

论断：
SDP-LSTM提出了一种新的用于关系分类的神经网络模型。它沿着最短的依赖门路迭代地学习关系分类的特色。沿着门路应用几种类型的信息(单词自身、POS标记、语法关系和WordNet上位词)。同时，利用LSTM单元进行近程信息流传和集成。通过在SemEval-2010关系分类工作上对SDP-LSTM模型进行评估，证实了SDP-LSTM的有效性，优于现有的先进办法(在没有数据清理的偏心条件下)。试验的后果为以下关系分类工作提供了一些启发。
•最短依赖门路是关系分类的贵重资源，涵盖了指标关系的大部分充沛信息。
•因为自然语言固有的歧义性和句子表白的多样性，分类关系是一项具备挑战性的工作。因而，整合异质语言常识对实现工作是有帮忙的。
•将最短的依赖门路视为两个子门路，映射两个不同的神经网络，有助于捕获关系的方向性。
•LSTM单元可能无效地沿着最短的依赖门路进行特色检测和流传

Att-BiLSTM

2015年中国科学院发表的论文《Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification》中提出了基于注意力机制的BiLSTM网络（Att-BiLSTM）用于关系分类，它能够利用BiLSTM和Attention机制，该机制能够主动关注对分类有决定性影响的单词，从而捕捉句子中最重要的语义信息，而无需应用额定的常识和NLP零碎。

Att-BiLSTM算法原理：

模型次要由五个局部组成:
（1） 输出层：在此模型中输出句子；
（2） 嵌入层：将每个单词映射到低维向量中；
给定一个由T个单词S={x1，x2，…，xT}组成的句子，每个单词xi都转换为实值向量ei。对于S中的每个单词，咱们首先查找嵌入矩阵Wwrd∈ Rdw | V |，其中V是固定大小的词汇表，dw是单词嵌入的大小。矩阵Wwrd是须要学习的参数，dw是须要用户抉择的超参数。咱们应用矩阵向量积将单词xi转换为单词嵌入ei：

其中，vi是大小为| V |的向量，其在索引ei处的值为1，在所有其余地位的值为0。而后句子作为实值向量embs={e1，e2，…，eT}馈送到下一层。

（3） LSTM层：利用BiLSTM从步骤（2）中获取高级特色；
采纳Graves等人（2013）引入的一种变体，该变体将恒定谬误转盘（CEC）的加权peephole connections增加到同一内存块的门。通过间接应用以后单元状态生成门度，peephole connections容许所有门进入单元进行查看（即以后单元状态），即便输入门敞开

通常，四个组件组合基于LSTM的递归神经网络：一个输出门it与相应的权重矩阵Wxi、Whi、Wci、bi；一个忘记门ft，对应权重矩阵Wxf、Whf、Wcf、bf；一个输入门ot具备相应的权重矩阵Wxo、Who、Wco、bo，所有这些门都设置为生成肯定的度，应用以后输出xi，状态hi−1生成的上一步骤，以及此单元格的以后状态ci−1（窥视孔），用于决定是否进行输出，遗记之前存储的内存，并输入当前生成的状态。

（4） Attention层：生成权重向量，将每个工夫步的单词级特色乘以权重向量，合并成句子级特征向量；

（5） 输入层：最终应用句子级特征向量进行关系分类。

（6）Attention层：设H是由LSTM层产生的输入向量[h1，h2，…，hT]组成的矩阵，其中T是句子长度。句子的示意r由这些输入向量的加权和形成：

其中H∈ Rdw×T，dw是词向量的维数，w是经过训练的参数向量，wT是转置。w，，r的维数别离为dw，T，dw从下式获取用于分类的最终句子对示意：

（7）输入层：将最初一层的句子级别的特征向量用于关系分类应用softmax分类器从一组离散的类y中为句子S预测标签y。该分类器采纳暗藏状态h∗ 作为输出：

试验后果：
试验数据集为 SemEval-2010 Task 8，该数据集蕴含8000个训练句子，2717个测试句子，一共蕴含9个关系类和一个Other关系类，若思考关系双向性则可认为是19个类。

Att-BiLSTM模型的F1得分为84.0%。它的性能优于大多数现有的竞争办法，无需应用词汇资源（如WordNet）或NLP零碎（如依赖项解析器和NER）来获取高维度特色。试验后果如下图所示：

论断：
本文提出了一种新的关系分类神经网络模型Att BLSTM。该模型不依赖NLP工具或词法资源，而是应用带有地位指示器的原始文本作为输出。通过在SemEval-2010关系分类工作中对模型进行评估，证实了Att-BiLSTM的有效性。

PCNN
2015年中国科学院发表论文《Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks》，论文中提出了一种新型的关系抽取模型PCNN。
在应用近程监控进行关系提取时，会呈现两个问题。首先，该办法将已有的知识库与文本进行对齐，对齐后果作为标记数据处理。然而，对齐可能会失败，导致谬误的标签问题。此外，在以前的办法中，统计模型通常利用于非凡特色。特征提取过程中产生的噪声可能会导致性能不佳。

为了解决这两个问题，提出了一种称为分段卷积神经网络（PCNNs）的多实例学习模型。为了解决第一个问题，将近程监督关系抽取视为一个多实例问题，其中思考了实例标签的不确定性。为了解决后一个问题，PCNN防止了特色工程，而是采纳具备分段最大池的卷积体系结构来主动学习相干特色。

PCNN用于主动学习特色，无需简单的NLP预处理。下图显示了用于近程监督关系提取的神经网络体系结构。它阐明了解决一个实例的过程。该过程包含四个次要局部：向量示意（Vector Representation），卷积层（Convolution），成对最大池化（Piecewise Max Pooling）和 softmax输入（Softmax Output）

向量示意：网络的输出是原始单词标记。应用神经网络时，通常将单词标记转换为低维向量。在PCNN办法中，通过查找预训练的单词嵌入，将每个输出单词标记转换为一个向量。此外，PCNN还应用地位特色（PFs）指定实体对，并通过查找地位嵌入将实体对转换为向量。
词嵌入（word embeddings）：单词嵌入是单词的分布式示意，将文本中的每个单词映射到“k”维实值向量。应用skip-gram模型来训练词向量
地位嵌入（position embeddings）：应用PFs（地位特色）指定实体对。PF定义为以后单词到e1和e2的绝对间隔的组合。如下图，单词son到实体Kojo Annan和Kofi Annan的绝对间隔别离为3和-2。

随机初始化两个地位嵌入矩阵（PF1和PF2），而后通过查找地位嵌入矩阵将绝对间隔转换为实值向量。图中词嵌入的维度d=4，地位嵌入的维度dp=1。联合词嵌入和地位嵌入，句向量示意为

其中，s 是句子长度（单词数），d = d+ d p ∗ 2
卷积：在关系提取中，标记为蕴含指标实体的输出句子仅对应于关系类型；它不会预测每个单词的标签。因而，可能须要利用所有部分特色并全局执行该预测。当应用神经网络时，卷积办法是很好的合并所有这些特色的办法。

卷积是权重向量w和被视为序列q的输出向量之间的运算。权重矩阵w被视为卷积的filter。在图3所示的示例中，咱们假如filter的长度为w（w=3）；因而，w∈ Rm（m=w∗d）。咱们认为S是序列{q1，q2，··，qs}，其中qi∈ Rd.一般来说，让qi:j示意qi到qj的连贯。卷积运算波及取w与序列q中每个w-gram的点积，以取得另一个序列c∈ R s+w-1:

其中，指数j的范畴为1到s+w−1.超出范围的输出值qi，其中i<1或i>s，取零。捕捉不同特色的能力通常须要在卷积中应用多个滤波器（或特色映射）。假如咱们应用n个滤波器（W={w1，w2，··，wn}），卷积运算能够示意为以下模式：

卷积后果是矩阵C={c1，c2，···，cn}∈ Rn×（s+w−1). 图3显示了在卷积过程中应用3个不同滤波器的示例

成对最大池化
卷积输入矩阵C∈ Rn×（s+w−1）的大小取决于输出网络的句子中令牌的数量。为了利用后续层，必须组合卷积层提取的特色，使其与句子长度无关。
只管单个最大池被宽泛应用，但这种办法不足以进行关系提取。单个最大池将暗藏层的大小升高得太快，太粗，无奈捕捉细粒度特色以进行关系提取。此外，单个最大池不足以捕捉两个实体之间的构造信息。在关系提取中，输出句子能够依据所选的两个实体分为三个局部。因而，PCNN提出了一种分段最大池化过程，该过程返回每个段中的最大值，而不是单个最大值。

如上图所示，Kojo Annan 和 Kofi Annan将每个卷积滤波器ci的输入分成三段{ci1、ci2、ci3}。分段最大池过程能够示意为：

对于每个卷积滤波器的输入，能够取得三维向量pi={pi1，pi2，pi3}。而后，连贯所有向量p1:n并利用非线性函数，例如双曲正切。最初，分段最大池过程输入一个向量：

其中g∈ R3n。g的大小是固定的，不再与句子长度相干。
softmax输入
最初通过softmax并输入

为了缓解谬误标签问题提出多实例学习

为了缓解谬误标签问题，对PCNN应用多实例学习。基于PCNNs的关系提取能够示意为五元组=（E，PF1，PF2，W，W1）。进入网络的是一个bag。假如有T个bag{M1，M2，··，MT}，并且第i个bag蕴含qi实例Mi={m1 i，m2 i，··，mqi i}。多实例学习的指标是事后记录看不见的bag的标签。在本文中，一个bag中的所有实例都是独立思考的。给定输出实例mj i，具备参数的网络输入向量o，其中第r重量或对应于与关系r相干的分数。为了取得条件概率p（r | m，），对所有关系类型利用softmax运算：

多实例学习的指标是辨别bag而不是实例。为此，咱们必须定义bsg的指标函数。给定所有（T）个训练bag（Mi，yi），咱们能够在包级别应用穿插熵定义指标函数，如下所示：

应用该定义的指标函数，应用Adadelta（Zeiler，2012）更新规定通过随机梯度降落在mini-batches上最大化J（）。整个训练过程在算法1中形容。从上述介绍中，能够晓得传统的反向流传算法依据所有训练实例批改网络，而带有多实例学习的反向流传批改基于bag的网络。因而，PCNN办法捕捉到了近程监督关系提取的实质，其中一些训练实例将不可避免地被谬误标记。当应用经过训练的PCNN进行预测时，当且仅当网络在其至多一个实例上的输入被调配正标签时，才对bag进行正标签。

试验后果：
试验选用NYT corpus作为数据集，失去如下图所示的试验比照后果。为了评估所提出的办法，试验抉择以下三种传统办法进行比拟。Mintz代表了（Mintz 等人，2009）提出的一种基于间隔监控的传统模型。MultiR是由（Hoffmann 等人，2011）提出的一种多实例学习办法。MIML是由（Surdeanu 等人，2012）提出的多实例多标签模型。图4显示了每种办法的精度召回曲线，其中PCNNs+MIL示意PCNN办法，并证实PCNNs+MIL在整个召回范畴内实现了更高的精度。PCNNs+MIL将召回率进步到大概34%，而不会损失任何精度。在精确度和召回率方面，PCNNs+MIL优于所有其余评估办法。值得注意的是，评估用于比拟的办法的后果是应用手工制作的特色取得的。相比之下，PCNN后果是通过主动学习原始单词的特色来取得的。结果表明，该办法是一种无效的近程监督关系提取办法。通过PCNN主动学习特色能够缓解传统特征提取中呈现的谬误流传。将多实例学习合并到卷积神经网络中是解决谬误标签问题的无效办法。

值得强调的是，在非常低的召回率下，PCNNs+MIL的放弃精度召回曲线急剧下降（图4）。对高置信度生成的谬误分类示例进行手动查看后发现，这些示例中的大多数是误判，实际上是因为Freebase的不完整性而谬误分类的实在关系实例。因而，保留的评估在Freebase中会呈现谬误否定。咱们执行手动评估以打消这些问题。

对于手动评估，PCNN抉择至多一个参加实体在Freebase中不存在的实体对作为候选。这意味着持有的候选人和手工候选人之间没有重叠。因为测试数据中示意的关系实例的数量未知，因而咱们无奈计算这种状况下的召回率。相同，咱们计算前N个提取的关系实例的精度。表2显示了前100、前200和前500个提取实例的手动评估精度。

结果表明，PCNNs+MIL的性能最好；此外，精度高于所进行的评估。这一发现表明，咱们预测的许多谬误否定事实上是实在的相干事实。因而，在放弃精度召回曲线中察看到的急剧下降是正当的。

PCNN提出了一种分段最大池的办法，并将多实例学习融入到卷积神经网络中，用于近程监督关系提取。为了证实这两种技术的成果，试验通过Held-out评估来实证钻研这些技术未实现的零碎的性能（图5）。CNNs示意利用单个最大池的卷积神经网络。图5显示，当应用PCNNs时，会产生比应用CNN更好的后果。

此外，与CNNs+MIL相比，当召回率大于0.08时，PCNNs的准确率略高。因为所有模型的参数都是通过网格搜寻确定的，因而能够察看到，当减少卷积神经网络的隐层大小时，CNN无奈取得与PCNN相比的竞争后果。这意味着咱们无奈通过简略地减少网络参数来捕捉更多有用的信息。这些结果表明，所提出的分段最大池技术是无益的，能够无效地捕捉构造信息以进行关系提取。

在网络中退出多实例学习时，也察看到相似的景象。CNNs+MIL和PCNNs+MIL别离优于CNNs和PCNNs，从而证实将多实例学习纳入神经网络可能胜利地解决谬误标签问题。正如预期的那样，PCNNs+MIL取得了最佳后果，因为这两种技术的劣势是同时实现的。

论断：

利用具备多实例学习的分段卷积神经网络（PCNN）进行近程监督关系提取，在PCNN的办法中，无需简单的NLP预处理即可主动学习特色。PCNN还胜利地在所提出的网络中设计了一个分段最大池层来捕捉构造信息，并联合多实例学习来解决谬误标签问题。试验结果表明，与同类办法相比，该办法具备显著的改良

参考文献：

李冬梅，张扬，李东远，林丹琼 .实体关系抽取办法钻研综述[J]. 计算机钻研与倒退,2020,57(7)
Yan Xu, Lili Mou, Ge Li, Yunchuan Chen, Hao Peng, Zhi Jin,“Classifying Relations via Long Short Term Memory Networks along Shortest Dependency Paths ,” arXiv:1508.03720v1 [cs.CL] 15 Aug 2015
Daojian Zeng, Kang Liu, Yubo Chen and Jun Zhao,“Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks ,” Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, pages 1753–1762
Peng Zhou, Wei Shi, Jun Tian, Zhenyu Qi, Bingchen Li, Hongwei Hao, Bo Xu，“Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classifification ,” Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, pages 207–212