乐趣区

关于人工智能:技术白皮书第三章事件信息抽取的方法

本文篇幅较长,倡议联合目录观看。

3.3 事件信息抽取的办法 

事件抽取(EE) 是信息抽取钻研中的一个重要而富裕挑战性的课题。事件作为一种非凡的信息模式,是指在特定工夫、特定地点产生的波及一个或多个参与者的特定事件,通常能够形容为状态的变动。事件提取工作旨在将此类事件信息从非结构化的纯文本中提取为结构化的模式,次要形容事实世界中事件产生的“谁、何时、何地、什么、为什么”和“如何”。在利用方面,该工作便于人们检索事件信息,剖析人们的行为,促成信息检索、智能问答、常识图谱构建等理论利用。

事件提取可分为两个档次: 基于模式的事件提取和基于凋谢域的事件提取。在基于模式的事件抽取工作中,事件被认为是特定的人和对象在特定的工夫和地点进行交互的客观事实。基于模式的事件提取是寻找属于特定事件模式的单词,即产生的动作或状态变动,其提取指标包含工夫、地点、人、动作等。在凋谢域事件提取工作中,事件被认为是一组主题的相干形容,能够通过分类或聚类造成。基于凋谢畛域的事件提取是指获取与特定主题相干的一系列事件,通常由多个事件组成。无论是基于模式还是凋谢域事件提取工作,事件提取的目标是从大量文本中捕捉咱们感兴趣的事件类型,并以结构化的模式显示事件的根本元素。

事件提取具备大量的工作价值 ,是一种绝对成熟的钻研分类法。它从文本中发现事件提及,并提取蕴含事件触发器和事件参数的事件。事件提及是指蕴含一个或多个触发器和参数的句子。事件提取须要辨认事件、对事件类型进行分类、辨认元素以及判断元素角色。触发器辨认和触发器分类可分为事件检测工作。参数标识和参数角色分类能够定义为一个参数提取工作。触发器分类是一个多标签分类] 工作,用来对每个事件的类型进行分类。角色分类工作是一种基于单词对的多类分类工作,确定句子中任意一对触发器和实体之间的角色关系。

因而,事件提取能够依赖于一些 NLP 工作的后果,如命名实体辨认(NER)、语义解析和关系提取。

  
上图是事件抽取的流程图。事件提取是找到焦点事件类型,并用它的角色提取其元素。对于 pipeline 范例事件提取,有必要辨别给定文本的文本中的事件类型,称为触发器分类。针对不同的事件类型,设计了不同的事件模式。而后,依据模式提取事件元素,包含元素辨认和元素角色分类子工作。在晚期阶段,论点提取被视为一个词分类工作,并对文本中的每个词进行分类。此外,还有序列标记、机器浏览了解(MRC)和序列到构造生成办法。对于联结范例事件提取,该模型同时对事件类型和元素角色进行分类,以防止触发分类子工作带来的谬误。

近年来,深度学习办法在很多畛域失去了利用,深度学习模型可能主动无效地提取句子中的重要特色。与传统的特征提取办法相比,深度学习办法能够主动提取特色。它能够对语义信息进行建模,并在更高的档次上主动组合和匹配触发特色。这些办法的有效性在自然语言解决中失去了验证,并获得了许多冲破。在事件提取工作中应用深度学习能够使许多钻研人员打消特征提取工作。

大多数基于深度学习的事件提取办法通常采纳监督学习,这意味着须要高质量的大数据集。依赖人工标注语料库数据耗时耗力,导致现有事件语料库数据规模小、类型少、散布不平均。事件提取工作可能非常复杂。一个句子中可能有多个事件类型,不同的事件类型将共享一个事件元素。同样的论点在不同事件中的作用也是不同的。依据抽取范式,基于模式的抽取办法可分为基于流水线(pipeline)的抽取办法和基于联结的抽取办法。对基于流水线(pipeline)的模型学习事件检测模型,而后学习元素抽取模型。联结事件提取办法防止了触发器辨认谬误对元素提取的影响,但不能充分利用事件触发器的信息。到目前为止,最好的事件提取办法是基于联结的事件提取范例。

3.3.1 基于流水线(pipeline)的事件信息抽取办法

 
采纳基于 流水线(pipeline)的办法,它首先检测触发器,并依据触发器判断事件类型。元素提取模型依据事件类型和 2 触发器的预测后果提取元素并对元素角色进行分类。基于流水线(pipeline)的办法将所有子工作视为独立的分类问题(《Zero shot transfer learning for event extraction,》、《Pipelined query processing in coprocessor environments》、《R-node: New pipelined approach for an effective reconfifigurable wireless  sensor node》)。

流水线(pipeline)办法被宽泛应用,因为它简化了整个事件提取工作。如图所示,基于流水线(pipeline)的事件提取办法将事件提取工作转化为多阶段分类问题。

所需的分类器包含
1)触发器分类器用于确定术语是否为事件触发器和事件类型。2)元素分类器用于确定单词是否为事件的元素。
3)元素角色分类器用于确定元素的类别。

 经典的基于深度学习的事件提取模型 DMCNN(《Event extraction via dynamic multi-pooling convolutional neural networks》)应用两个动静多池卷积神经网络进行触发分类和元素分类。触发器分类模型辨认触发器。如果存在触发器,元素分类模型将用于辨认元素及其角色。PLMEE(《Exploring pretrained language models for event extraction and generation》)还应用了两种模型,别离采纳触发器提取和元素提取。元素提取器应用触发器提取的后果进行推理。通过引入 BERT,它体现良好。

基于流水线(pipeline)的事件提取办法通过之前的子工作为后续子工作提供额定信息,并利用子工作之间的依赖关系。Du 等人(《Event extraction by answering (almost) natural questions》)采纳问答办法来实现事件提取。

首先,该模型通过设计的触发器问题模板辨认输出句子中的触发器。模型的输出包含输出句子和问题。而后,它依据已辨认的触发器对事件类型进行分类。触发器能够为触发器分类提供额定信息,但谬误的触发器辨认后果也会影响触发器分类。最初,该模型辨认事件元素,并依据事件类型对应的模式对元素角色进行分类。在论点提取中,该模型利用了上一轮历史内容的答案。这种办法最显著的缺点是谬误流传。直观地说,如果在第一步中触发器辨认呈现谬误,那么元素辨认的准确性就会升高。

因而,在应用流水线(pipeline)提取事件时,会呈现谬误级联和工作拆分问题。流水线(pipeline)事件提取办法能够利用触发器的信息提取事件元素。然而,这须要高精度的触发器辨认。谬误的触发器将重大影响元素提取的准确率。

因而,流水线(pipeline)事件提取办法将触发器视为事件的外围。基于流水线(pipeline)的办法将将事件提取工作转化为多阶段分类问题。基于流水线(pipeline)的事件提取办法首先辨认触发器和元素标识基于触发器辨认的后果。它思考了触发因素作为事件的外围。

然而,这一阶段性策略将导致谬误流传。触发器的辨认谬误将被传递到元素分类阶段将导致整体性能降落。此外,因为触发检测总是在前元素检测,元素将不被思考同时检测触发器。因而,每个环节都是独立的不足互动,漠视了它们之间的影响。因而,整体依赖关系无奈解决。典型的例子是 DMCNN。

3.3.2 联结学习的事件信息抽取办法

为了克服由事件检测引起的错误信息流传,钻研人员提出了一种基于联结的事件提取范式。它通过联合触发器辨认和元素提取工作来缩小错误信息的流传。事件抽取在自然语言解决中具备重要的实用价值。在应用深度学习对事件提取工作建模之前,钻研了事件提取中的联结学习办法。如下图所示,该办法在第一阶段依据候选触发器和实体辨认触发器和元素。在第二阶段,为了防止事件类型错误信息的流传,同时实现了触发器分类和元素角色分类。将触发器“died”分为 Die 事件类型,元素“Baghdad”分为 Place 元素角色等。

基于联结模型的深度学习事件提取办法次要利用深度学习和联结学习与特色学习进行交互,防止了学习工夫过长和简单的特色工程。Li 等人(《Joint event extraction via structured prediction with global features》)在传统特征提取办法的根底上,钻研了触发器提取和元素提取工作的联结学习,并通过结构化感知器模型取得最优后果。Zhu 等人(《Bilingual event extraction: a case study on trigger type determination》)设计了高效的离散特色,包含特征词中蕴含的所有信息的部分特色,以及能够连贯触发器和元素信息的全局特色。Nguyen 等人(《Joint event extraction via recurrent neural networks》)通过深度学习和联结学习胜利构建了本地特色和寰球特色。它应用递归神经网络将事件辨认和论点角色分类联合起来。构建的部分特色包含文本序列特色和部分窗口特色。输出文本由单词向量、实体向量和事件元素组成。而后将文本转换为递归神经网络模型,以取得深度学习的序列特色。本文还提出了一个带记忆的深度学习模型对其进行建模。它次要针对事件触发器之间、事件元素之间以及事件触发器与事件元素之间的全局个性,以同时进步工作的性能。

事件提取波及实体辨认等相干工作,这有助于改良事件提取。Liu 等人(《Leveraging framenet to improve automatic event detection》)利用论点的部分特色来辅助角色分类。他们首次采纳了实体联结学习工作,旨在升高工作的复杂性。后面的办法应用标记的特色输出数据集,并输入事件。Chen 等人(《Automatically labeled data generation for large scale event extraction》)简化了过程,即纯文本输出和输入。在过程的两头,它是事件元素的联结学习。这种联结学习因素次要提供每个输出事件中不同事件的关系和实体信息。

上述联结学习办法能够实现触发器和元素的联结建模事件提取。然而,在理论工作过程中,触发器和元素的提取是间断进行的,而不是同时进行的,这是一个亟待探讨的问题。此外,如果在深度学习中退出端到端模式,特征选择工作量将显著缩小,这也将在前面探讨。联结事件提取办法防止了触发器辨认谬误对事件元素提取的影响,思考到触发器和元素等同重要,但不能利用触发器的信息。

为了克服流水线(pipeline)的办法的毛病,钻研人员提出了联结办法。联结办法结构了一个联结学习模型来触发辨认和元素辨认,其中触发和元素能够相互促进提取成果。试验证实,联结学习办法的成果优于流水线(pipeline)学习办法。经典案例是 JRNN(《Joint event extraction via recurrent neural networks》)。联结事件提取办法防止了事件元素提取中的触发器辨认,但不能利用触发器信息。联结事件提取办法认为事件中的触发器和元素等同重要。

然而,无论是基于流水线(pipeline)的事件提取还是基于联结的事件提取都无奈防止事件类型预测谬误对元素提取性能的影响。此外,这些办法不能在不同的事件类型之间共享信息,不能独立地学习每种类型,这不利于仅应用大量标记数据的事件提取。

3.3.3 基于深度学习的事件信息抽取模型

传统的事件提取办法对深度特色的学习具备挑战性,使得依赖于简单语义关系的事件提取工作难以改良。最新的事件提取工作基于深度学习体系结构,如卷积神经网络(CNN)、循环神经网络(RNN)、图形神经网络(GNN)、Transformers 或其余网络。深度学习办法能够捕捉简单的语义关系,显著改善多事件提取数据集。上面会介绍了几种典型的事件提取模型。

  

3.3.3.1 基于 CNN 的模型 

事件提取是信息提取中一个特地具备挑战性的问题。传统的事件提取办法次要依赖于设计良好的特色和简单的 NLP 工具,这会耗费大量人力资源老本,并导致数据稠密和谬误流传等问题。为了在不应用简单的自然语言解决工具的状况下主动提取词汇和句子级特色,Chen 等人引入了一种称为 DMCNN 的单词示意模型。它捕获单词有意义的语义规定,并采纳基于 CNN 的框架来捕获句子层面的线索。然而,CNN 只能捕捉句子中的根本信息,它应用动静多池层来存储基于事件触发器和元素的更要害的信息。事件提取是由具备主动学习特色的动静多池卷积神经网络实现的两阶段多类分类。第一阶段是触发器分类。DMCNN 对句子中的每个单词进行分类,以确定触发因素。对于具备触发器的句子,此阶段利用相似的 DMCNN 为触发器调配元素,并对齐元素的角色。图 6 形容了元素分类的体系结构。词汇级特色示意和句子级特征提取用于捕获词汇线索和学习句子的组成语义特色。

 CNN 演绎出句子中 k -gram 的根本构造 。因而,一些钻研人员还钻研了基于卷积神经网络的事件提取技术。Nguyen 等人[114] 应用 CNN 来钻研事件检测工作,与传统的基于特色的办法相比,它克服了简单的特色工程和谬误流传限度。但它宽泛依赖其余受监督的模块和手动资源来获取特色。在跨域泛化性能方面,它显著优于基于特色的办法。此外,为了思考非间断的 K -G,Nguyen 等人(111)引入了不间断的 CNN。CNN 模型通过具备丰盛部分和全局特色的结构化预测利用于基于流水线(pipeline)和基于联结的范式,以主动学习暗藏的特色示意。与基于流水线(pipeline)的办法相比,基于联结的范式能够缓解谬误流传问题,并利用事件触发器和元素角色之间的互相依赖性。
 

3.3.3.2 基于 RNN 的模型 

除了基于 CNN 的事件提取办法外,还对 RNN 进行了一些钻研。RNN 用于建模序列信息,以提取事件中的元素,如图 7 所示。JRNN 提出了一种双向 RNN,用于基于联结的范例中的事件提取。它有一个编码阶段和预测阶段。在编码阶段,它应用 RNN 来总结上下文信息。此外,它还预测了预测阶段的触发和论证。

以前的办法重大依赖于特定语言的常识和现有的 NLP 工具。一种更具前景的从数据中主动学习有用特色的办法。Feng 等人(《A language independent neural network for event detection》)开发了一种混合神经网络,用于捕获特定序列和信息片段的上下文,并将其用于训练多语言事件检测器。该模型应用双向 LSTM 获取须要辨认的文档序列信息。而后利用卷积神经网络获取文档中的短语块信息,将这两种信息联合起来,最终辨认出触发点。该办法能够应用多种语言(英语、汉语和西班牙语)进行持重、高效和精确的检测。在跨语言泛化性能方面,复合模型优于传统的基于特色的办法。深度学习中的树结构和序列构造比序列构造具备更好的性能。为了防止适度依赖词汇和句法特色,依赖桥递归神经网络(DBRNN)(《Jointly extracting event triggers and arguments by dependency-bridge RNN and tensor based argument interaction》)基于双向 RNN 进行事件提取。DBRNN 依附连接语法相干单词来加强。DBRNN 是一个基于 RNN 的框架,它利用依赖关系图信息提取事件触发器和元素角色。

3.3.3.3 基于注意力的模型 

深度学习模型对事件特色的主动提取和内部资源对事件特色的加强次要集中在事件触发器的信息上,而对事件元素和词间相关性的信息关注较少。句子级程序建模在捕捉很长范畴的依赖关系时效率很低。此外,基于 RNN 和基于 CNN 的模型不能齐全模仿事件之间的关联。留神机制中构造信息的建模逐步引起了研究者的关注。随着钻研办法的一直提出,减少留神机制的模型逐步呈现,如图所示。留神机制的特点决定了它能够在不思考地位信息的状况下,利用全局信息对部分环境进行建模。在更新词语的语义示意时有很好的利用成果。

留神机制通过管制句子各局部的不同权重信息,使模型在关注句子重要特色信息的同时疏忽其余不重要的特色信息,并正当分配资源以提取更精确的后果。同时,留神机制自身能够作为一种对齐,解释端到端模型中输出和输入之间的对齐,使模型更具解释性。

一些钻研人员还应用分层留神机制来进行信息的全局聚合。四个模块:单词示意、句法图卷积网络、自我留神触发分类和论点分类模块。通过引入语法快捷弧,信息流失去了加强。利用基于留神的图卷积网络对图信息进行联结建模,提取多个事件触发器和元素。此外,当联结提取事件触发器和元素以解决数据集不均衡时,它优化了有偏损失函数。

3.3.3.4 基于 GCN 的模型 

句法表征为句子中的事件检测提供了一种将单词间接链接到其信息上下文的无效办法。Nguyen 等人(《Graph convolutional networks with argument-aware pooling for event detection》)钻研了一种基于依赖树的卷积神经网络来执行事件检测,他们是第一个将语法集成到神经事件检测中的人。他们提出了一种新的池化办法,该办法依赖于实体提及来聚合卷积向量。该模型对以后单词和句子中提到的实体的基于图形的卷积向量进行合并。该模型聚合卷积向量以生成用于事件类型预测的单个向量示意。该模型将对实体提及的信息进行显式建模,以进步事件检测的性能。

在(《Event time extraction and propagation via graph attention networks》)中,TAC-KBP 时隙用于填充工作中提出的四元工夫示意,该模型预测事件的最早和最晚开始和完结工夫,从而示意事件的含糊时间跨度。该模型基于共享元素和工夫关系为每个输出文档构建文档级事件图,并应用基于图的留神网络办法在图上流传工夫信息,如图所示,其中实体加下划线,事件用粗体显示。Wen 等人基于输出文档的事件关系构建文档级事件图办法。将提取文档中的事件元素。而后,依据关键字(如前后)和事件产生的工夫逻辑,按工夫顺序排列事件。实体元素在不同事件之间共享。模型实现将事件合并到更精确的工夫线中。

3.3.3.5 基于 transformer 的模型

利用一个在不同事件中表演不同角色的元素来改良事件提取是一个挑战。杨在论证角色方面的预测有助于克服角色重叠问题。此外,因为训练数据有余,该办法通过编辑原型并通过对品质进行排序来筛选开发的样本,从而主动生成标记数据。他们提出了一个框架,即基于预训练语言模型的事件提取器(PLMEE)[37],如图 10 所示。PLMEE 通过联合应用提取模型和基于事后训练的语言模型的生成办法来促成事件提取。它是一个两阶段的工作,包含触发器提取和元素提取,由触发器提取程序和元素提取程序组成,这两个程序都依赖于伯特的特色示意。而后,它利用角色的重要性来从新衡量损失函数。

GAIL(《Joint entity and event extraction with generative adversarial imitation learning》)是一个基于 ELMo 的模型,利用生成性反抗网络帮忙模型关注更难检测的事件。他们提出了一个基于生成反抗式模拟学习的实体和事件提取框架。这是一种采纳生成反抗网络(GAN)的反向强化学习(IRL)办法。该模型通过应用 IRL 的动静机制,间接评估实体和事件提取中实例的正确和谬误标记。

DYGIE++(《Entity, relation, and event extraction with contextualized span representations》)是一个基于 BERT 的框架,它对句子和跨句子上下文中的文本跨度和捕捉进行建模。许多信息提取工作,如命名实体辨认、关系提取、事件提取和独特援用解析,都能够受害于跨句子的全局上下文或不依赖于部分的短语。它们将事件提取作为附加工作,并在事件触发器及其元素的关系图中进行跨度更新。广度示意是在多语句 BERT 编码的根底上结构的。

事件抽取是信息抽取的一个重要钻研方向,在信息收集、信息检索、舆论剖析等方面施展着重要作用,具备利用价值。传统的事件提取办法大多采纳人工结构的办法进行特色示意,并应用分类模型对触发器进行分类,辨认元素的作用。近年来,深度学习在图像处理、语音辨认、自然语言解决等方面获得了显著的成果。为了解决传统办法的有余,系统地探讨了基于深度学习的事件提取。在伯特模型呈现之前,支流的办法是从文本中找到触发点,并依据触发点判断文本的事件类型。近年来,随着 BERT 事件提取模型的引入,基于全文的事件类型识别方法已成为支流。这是因为 BERT 具备杰出的上下文示意能力,在文本分类工作中体现良好,尤其是在数据量较小的状况下。

3.3.4 罕用的事件抽取模型

– DMCNN

DMCNN 是一种基于动静池化(dynamic pooling的卷积神经网络模型的事件抽取办法,来自中国科学院自动化研究所的论文《Event Extraction via Dynamic Multi-Pooling Convolutional Neural Networks》。这是一种 pipeline 形式的事件抽取计划,即对触发词的检测和辨认、对元素的检测和辨认两个工作是离开进行的,后者依赖于前者的预测后果。两个子工作都被转换成了多分类问题,模型都采纳 DMCNN,只是稍有不同。

– DMCNN 算法原理:

本办法中,通过具备主动学习特色的 DMCNN,将事件提取表述为两阶段、多类分类的工作。第一个阶段称为触发分类,在该阶段中,应用 DMCNN 对句子中的每个单词进行分类,以辨认触发词。如果一个句子有触发器,则进行第二阶段,该阶段利用相似的 DMCNN 将元素调配给触发器,并对齐元素的角色。本办法称之为元素分类。

上图元素分类的构造,基本上波及以下局部:
(1)词嵌入学习,无监督形式;
(2)词典级别特色示意,间接用词向量来发现词汇线索;
(3)句子级特色抽取,提出 DMCNN 来学习句子中组成语义特色;
(4)元素分类输入,为每一个元素候选角色计算置信度值。

– 词嵌入学习和词汇级特色示意

词汇级别特色是事件抽取中的重要线索。传统的词典级别特色基本上包含候选词的 lemma,同义和词性标签。这种特色的品质依赖于现有的 NLP 工具和人工精美。这篇论文抉择无监督预训练词向量作为根本数据源特色,咱们抉择候选词的词向量(候选触发词,候选元素)和上下文 token(候选词左右 token)。而后,所有词向量串起来词汇级别特征向量 L 来示意元素分类里的词汇级别特色。

在这项工作中,应用 skip-gram 模型来预训练词向量。skip-gram 应用扩充平均值 log 可能性来训练词语 w1,w2……wm。

– 应用 DMCNN 进行句子级别特色学习

CNN 应用最大池是一个很好的抉择来取得句子中长距离词之间的语义关系。然而,传统的 CNN 不能解决事件抽取的问题。因为一个句子中可能蕴含不仅仅一个事件,仅仅应用最重要的信息来示意这个句子,因为在传统的 CNN 中,会失去很多有价值的线索。为了解决这个问题,论文提出了 DMCNN 的办法来抽取句子级别的特色。DMCNN 应用动静多池卷积神经网络来实现一个句子中每个局部的最大值获取,这个句子被事件触发词和事件元素宰割。

– 输出  

预测的触发词与候选元素之间的语义关系对于元素分类是至关重要的。因而,论文提出了三种类型输出来使 DMCNN 能够取得重要的线索:

  • 词汇上下文特色(CWF): CWF 是通过查找单词嵌入转换的每个单词标记的向量。
  • 地位特色(PF):很有必要指定哪些词是元素分类中的预测触发器或候选元素。因而,论文提出 PF 定义为以后词语和候选元素或者触发词之间的间隔,。为了编码地位特色,每一个间隔值用向量示意。相似于词嵌入,间隔值随机初始化和最优化应用后项流传办法。
  • 事件类型特色(EF):以后触发词的事件类型对于元素分类是有价值的,所以论文在触发词分类阶段就对事件类型预测进行编码,而后作为 DMCNN 的重要线索。假设词向量大小为 dw=4,地位嵌入大小为 dp=1, 事件类型嵌入为 de=1,xi 属于 Rd, 其中 i 示意第 d 维度在句子中第 i 个词汇,其中 d =dw+dp*2+de。一个长度为 n 的句子如下:x1:n = x1 ⊕ x2 ⊕ … ⊕ xn⊕为串联操作符号。因而,联合词嵌入、地位嵌入和事件类型嵌入把一个实例转换成一个矩阵 X ∈ Rn×d, 而后 X 将输出卷积网络中。
– 卷积

卷积层目标在于抓取整个句子的组成语义,而后压缩那些有价值的语义到特色映射中。xi:i+ j 示意词向量从 i 到 i + j 的串联,卷积操作降级一个 w ∈ Rh×d,利用 h 个单词为窗口来生成新的特色。比如说,特色 Ci 由 xi:i+h- 1 的窗口单词生成。

 其中 b∈ R 是一个偏置项,f 是一个非线性函数,如双曲正切。该滤波器利用于句子 x1:h,x2:h+1,…,xn−h+1:n 生成特色映射 ci,其中索引 i 的范畴为 1 到 n− h+1。咱们把这一过程形容为从以过滤抽取为特色映射。为了抓取不同的特色,通常在卷积中应用多个滤波器。假设应用滤波器 W =w1,w2……wm, 卷积操作表白如下:

 其中 j 范畴为 1 到 m。卷积后果为矩阵 C ∈ Rm×(n-h+1).

– 动静多池

为了提取每个特色图中最重要的特色(最大值),传统的 cnn 将一个特色图作为池,每个特色图只失去一个最大值。然而,单个最大池化对于事件提取是不够的。因为在论文的工作中,一个句子可能蕴含两个或更多的事件,而一个候选元素可能用不同的触发器施展不同的作用。为了做出精确的预测,须要获取对于候选词变动的最有价值的信息。因而,依据元素分类阶段依据候选元素和预测触发器将每个特色映射分为三个局部。DMCNN 不是应用整个特色映射的一个最大值来示意句子,而是保留每个分割部分的最大值,并称之为动静多池。与传统的最大池化相比,动静多池化能够在不脱漏最大池化值的状况下保留更多有价值的信息。

特色映射输入 Cj 被切分为三局部 Cj1,Cj2,Cj3, 动静多池能够示意如模式下,其中 1 <=j<=m,1<=i<=3 .pji = max(cji)、

 通过动静多卷积层,取得每个特色映射 pij。串联所有 pij 成为向量 P ∈ R3m

– 输入

主动学习词汇和句子级特色全副串联成一个向量 F =[L,P]. 为了计算每一个元素角色的置信度,特征向量 F ∈ R3m+dl,其中 m 是特色映射的个数,dl 是词汇级别特色的维数。

– 触发分类工作

上述办法也实用于触发分类,但该工作只须要在句子中找到触发器,这比元素分类简略。因而,能够应用 DMCNN 的简化版本。在触发器分类中,DMCNN 只在词汇级特色示意中应用候选触发器及其左右标记。在句子级别的特色示意中,应用与元素分类中雷同的 CWF,但只应用候选触发器的地位来嵌入地位特色。此外,句子不是把句子分成三个局部,而是被一个候选触发器分成两局部。除了上述特色和模型的变动外,将触发器分类为元素的分类。这两个阶段独特形成了事件提取的框架。

试验后果:

DMCNN 的研究者选用 ACE 2005 corpus 作为试验的数据集,失去了如下表所示的试验后果。表 1 显示了盲测试数据集的总体性能。从后果能够看出,具备主动学习特色的 DMCNN 模型在所有比拟办法中获得了最好的性能。DMCNN 能够将最先进的 F1 触发器分类进步 1.6%,元素角色分类进步 0.8%。这证实了该办法的有效性。此外,将 Liao’s cross-event(《Using document level cross-event inference to improve event extraction》)与 Li’s baseline(《Joint event extraction via structured prediction with global features》)进行比拟,阐明 Liao’s cross-event 获得了更好的问题。咱们也能够在比拟 Hong‘s cross-entity 和 Liao’s cross-event 以及比拟 Li’s structure(《Joint event extraction via structured prediction with global features》)和 Hong‘s cross-entity(《Using cross-entity inference to improve event extraction》)时进行同样的察看。事实证明,当应用传统的人工设计的特色时,更丰盛的特色集能够带来更好的性能。然而,DMCNN 的办法在只应用从原始单词中主动学习的特色的状况下,能够取得更好的后果。具体而言,与 Hong‘s cross entity 相比,它在触发器分类 F1 上进步了 0.8%,在元素分类 F1 上进步了 5.2%。研究员认为,起因是 DMCNN 主动学习的特色能够捕捉到单词更有意义的语义法则。值得注意的是,与 Li’s structure 相比,只管没有应用简单的 NLP 工具,但 DMCNN 的句子和词汇特色办法获得了相当的性能。

  在一个句子中含有多个事件的抽取试验中失去了如下表所示的试验后果。表 2 显示了数据集中蕴含多个事件或单个事件的句子的比例,以及在一个句子中蕴含一个事件或多个事件的元素的比例。

  下表是 DMCNN 和 CNN 还有 embedding+ T 的比照。表 3 阐明了基于卷积神经网络(CNN 和 DMCNN)的办法优于 embedding+T。这证实了卷积神经网络在句子级特征提取方面可能比传统的人类设计策略更无效。在表 3 中,对于所有句子,DMCNN 的办法比 CNN 别离进步了约 2.8% 和 4.6%。后果证实了动静多池层的有效性。乏味的是,DMCNN 对有多个事件的句子的触发分类进步了 7.8%。这种改良比有繁多事件的句子要大。能够对元素分类后果进行相似的察看。这表明,拟议的 DMCNN 能够无效捕捉比最大池 CNN 更多的有价值线索,尤其是当一句话蕴含多个事件时。

 表四是 DMCNN 通过词汇特色进行事件抽取和传统办法通过词汇特色进行事件抽取的试验后果比照。表 4 表明,对于所有状况,与传统的词汇特色相比,DMCNN 的办法在触发器和元素的分类方面都有显著的改良。对于状况 B,从单词嵌入中提取的词汇级特色对触发器分类和元素分类别离进步了 18.8% 和 8.5%。这是因为基线仅应用离散特色,因而它们存在数据稠密性,无奈充沛解决触发器或元素未呈现在训练数据中的状况。

  表五是不同档次特色进行抽取的有效性的试验比照。应用 DMCNN 取得的后果如表 5 所示。乏味的是,在触发分类阶段,词汇特色起着无效的作用,而句子特色在论点分类阶段起着更重要的作用。当试验将词汇级和句子级特色联合起来时,成果最好。这一察看结果表明,这两个级别的特色对于事件提取都很重要。

论断:

DMCNN 提出了一种新的事件提取办法,能够主动从纯文本中提取词汇级和句子级特色无需简单的 NLP 预处理。引入词示意模型来捕获词汇语义线索,设计了动静多池卷积神经网络(DMCNN)对句子语义线索进行编码。试验后果证实了该办法的有效性。JRNNJRNN 来自纽约大学 2016 年的论文《Joint Event Extraction via Recurrent Neural Networks》,提出了一个基于循环神经网络的事件抽取联结模型,既防止了管道模型中的误差流传问题,同时也思考到了事件触发词和事件元素之间的关系。

事件抽取的办法次要有两种:
(1)管道模型:首先辨认事件触发器,之后再进行事件元素的辨认。
(2)联结模型:同时预测句子的事件触发器和事件元素。联结模型缓解了管道模型存在的误差流传问题,并思考了事件触发器和事件元素之间的依赖关系。

  • JRNN 的算法原理:

 JRNN 将事件抽取工作形式化如下。W=w1,w2,…,wn 是一个句子,其中 n 是句子长度,wi 是第 i 个标记。另外,让 E =e1,e2,…,ek 是这句句子中提到的实体(k 是实体提到的数量,能够为零)。每个提到的实体都带有头部的偏移量和实体类型。进一步假如 i1,i2,……,ik 别离是 e1,e2,……,ek 的最初一个词的索引。在 EE 中,对于句子中的每个标记 wi,须要预测它的事件子类型(如果有的话)。如果 wi 是某些感兴趣的事件的触发词,那么须要预测每个实体提到的 ej 在该事件中表演的角色(如果有的话)

整个模型分为两个阶段:编码阶段和预测阶段
(1)编码阶段利用循环神经网络诱导句子更形象的向量
(2)预测阶段应用新的向量执行事件触发和元素角色辨认

  • 编码阶段:

在编码阶段,首先应用以下三个向量的连贯,将每个标记 wi 转换为一个实值向量 xi:
1.wi 的单词嵌入向量:通过查找一个事后训练好的单词嵌入表失去的

2.wi 的实体类型的实值嵌入向量:该向量基于之前的工作(Nguyen 和 Grishman,《Event detection and domain adaptation with convolutional neural networks.》),通过查找 wi 的实体类型的实体类型嵌入表(随机初始化)生成。

请留神,还应用 BIO 正文模式来为句子中的每个标记调配实体类型标签。

3. 二元向量,其维数对应于依存树中词之间的可能关系。仅当 W 的依存树中存在与 wi 相连的对应关系的一条边时,该向量的每个维度的值才设置为 1。该向量示意在先前的钻研中(《Joint event extraction via structured prediction with global features.》)显示有帮忙的依存特色请留神,JRNN 没有应用绝对地位特色,起因是 JRNN 独特预测了整个句子的触发器和元素角色,因而在句子中没有固定的锚定地位。从标记 wi 到向量 xi 的转换实质上是将输出句子 W 转换为实值向量 X =(x1,x2,……,xn),供循环神经网络用来学习更无效的示意。

  • 预测阶段:
    为了独特预测 W 的触发器和元素角色,JRNN 为触发器创立一个二进制内存向量,为元素保护一个二进制内存矩阵和(每次 i)。这些向量 / 矩阵最后被设置为零(i=0),并在 W 的预测过程中进行更新。

给定双向示意 h1,h2,……,在编码阶段的 hn 和初始化的内存向量 / 矩阵,联结预测过程循环到句子中的 n 个令牌 (从 1 到 n)。在每个工夫步 i 中,咱们依照程序执行以下三个阶段:
(1) 对 wi 的触发器进行预测。
(2)所有实体提到的 e1、e2 的元素角色预测…,ek 对于以后的令牌 wi。
(3)应用之前的记忆向量 / 矩阵、
和,以及晚期阶段的预测输入,计算以后步骤的
、和。

这个过程的输入将是 wi 的预测触发子类型 ti,预测的元素角色 ai1,ai2,…,aik 和内存向量 / 矩阵
、和。

请留神,如果 wi 是某些感兴趣的事件的触发词,或者在其余状况下是“Other”,则 ti 应该是事件子类型。相比之下,如果 wi 是一个触发词,而 ej 是对应事件的元素,则 aij 应该是对于 wi 的实体的元素角色,否则 aij 被设置为“Other”(j= 1 到 k)。

  • 触发器预测:

在以后标记 wi 的触发预测阶段,咱们首先应用以下三个向量的连贯来计算 wi 的特色示意向量:
hi: 封装输出句子的全局上下文的暗藏向量。
:wi 的部分上下文向量。
是通过将单词的上下文窗口中的向量连接起来生成的:
=[D[wi−d],…,D[wi],…,D[wi+d]]。
:前一步中的记忆向量。

而后将示意向量
=[hi,,] 输出前馈神经网络和 softmax 层,最终计算可能触发子类型的概率分布。
最初计算 wi 的预测类型 ti。

  • 元素预测阶段:

在元素角色预测阶段,咱们首先查看前一阶段预测的触发子型 ti 是否为“Other”。如果是,能够简略地将 aij 设置为所有 j = 1 到 k 的“Other”,而后立刻进入下一个阶段。否则,循环实体 e1,e2,…,ek。

试验后果:

JRNN 采纳 ACE 2005 corpus 作为试验的数据集,失去了如下表所示的试验后果:从表中,咱们能够看到,在所有比拟模型中,JRNN 取得了最好的 F1 分数(对于触发器和元素标记)。这对于元素角色标记性能来说是十分重要的(比 Chen 等人(2015 年)报道的最佳模型 DMCNN 进步了 1.9%),并证实了在这项工作中,具备 RNN 和记忆特色的联结模型的益处。此外,因为 JRNN 显著优于 Li 等人(2013)提出的具备离散特色的联结模型(触发器和元素角色标记别离进步了 1.8% 和 2.7%),咱们能够确认 JRNN 在学习 EE 无效特色示意方面的有效性。

  在一个句子中含有多个事件的抽取试验中失去了如下表所示的试验后果。表中最重要的察看后果是,当输出句子蕴含多个事件(即表中标记为 1 / N 的行)时,JRNN 显著优于所有其余具备较大裕度的办法。特地是,JRNN 在触发器标记方面比 DMCNN 好 13.9%,而元素角色标记方面的相应改良为 6.5%,从而进一步表明了 JRNN 与内存个性的劣势。就单事件句子的性能而言,JRNN 在触发器标记上依然是最好的零碎,只管在元素角色标记上不如 DMCNN。这能够局部解释为,DMCNN 蕴含元素的地位嵌入个性,而 JRNN 中的内存矩阵 Garg/trg 在这种单事件状况下不起作用

 

论断:

JRNN 提出了一种基于双向 RNN 的执行事件抽取的联结模型,以克服以往模型的局限性。引入了记忆矩阵,能够无效地捕获元素角色和触发器子类型之间的依赖关系。咱们证实了 CBOW 单词嵌入对关节模型十分有用。在 ACE 2005 数据集上,所提出的联结模型在具备多个事件的句子上是无效的,并且产生了最先进的性能。

PLMEE

传统的事件抽取(EE)办法通常依赖于人为标注的数据,耗时耗力,而且标注的数据量不会很大。不短缺的数据妨碍了模型的学习。

本文首先提出了一个 EE 模型——PLMEE,通过将元素(argument)预测依照角色进行拆散来克服角色重叠问题。

为了解决训练数据有余的问题,提出了一种通过 edit prototypes 的办法来主动生成标注数据,并依照数据的品质进行排序,对生成的样本进行筛选。

  • PLMEE 的算法原理:

EE 工作的目标是辨认出事件触发器和元素。如图所示。

 
提出的基于预训练语言模型的办法包含 2 个模块
(1)事件抽取模型;
(2)有标签的事件生成办法。

  • (1)事件抽取模型
    将事件提取作为一个两阶段的工作,包含触发器提取和元素提取,并提出了一个基于预训练语言模型的事件提取器(PLMEE)。图 3 阐明了 PLMEE 的体系结构。它由一个触发器提取器和一个元素提取器组成,这两者都依赖于 BERT 的特色示意。
  • (2)预训练语言模型
    预训练语言模型(PLM)用于生成标注数据,有两个关键步骤:1)argument replacement;2)adjunct token rewriting。并对生成的样本进行评分,抉择出高质量的数据。将这些数据和现有的数据合并,能够加强事件抽取器的性能。

事件抽取模型
将 EE 看成两个子工作:1)触发器抽取;2)元素抽取,并提出 PLMEE 模型,模型架构如图 3 所示。模型由触发器抽取器和元素抽取器两局部组成,两者均依赖于 BERT 学习到的特色示意。

触发器的抽取
触发器抽取器的目标是预测出触发了事件的 token,形式化为 token 级别的多类别分类工作,分类标签是事件类型。在 BERT 上增加一个多类分类器就形成了触发器抽取器。

触发器提取器的输出遵循 BERT,即三种嵌入类型的总和,包含 WordPiece 嵌入、地位嵌入和片段嵌入。因为输出只蕴含一个句子,所以它的所有段 id 都被设置为零。此外,token[CLS]和 [SEP] 被搁置在句子的结尾和结尾。在许多状况下,触发器是一个短语。因而,将共享雷同预测标签的间断令牌作为一个整体触发器。个别状况下,采纳穿插熵作为损失函数进行微调。

元素的抽取
给定触发器,元素提取器旨在提取相干的元素和它们所表演的所有角色。与触发器提取相比,元素提取更为简单,因为有三个问题:元素对触发器的依赖性,大多数元素是长名词短语,以及角色重叠的问题。咱们正好采取了一系列的口头来应答这些阻碍。与触发器提取器一样,元素提取器也须要三种嵌入。然而,它须要晓得哪些令牌形成了触发器。因而,将触发标记的段 ids 设为 1 来输出元素提取器。

为了克服元素提取中的后两个问题,论文在 BERT 上增加了多组二进制分类符。每一组分类器都拆散了一个角色,以确定所有播放它的元素的跨度(每个跨度包含一个开始和一个完结)。这种办法相似于 SQuAD 上的问题答复工作,其中只有一个答案,而表演雷同角色的多个元素能够在一个事件中同时呈现。因为预测是用角色离开的,因而一个元素能够表演多个角色,而一个标记能够属于不同的元素。因而,也能够解决角色重叠问题。

训练数据的生成
除了 PLMEE 之外,论文还提出了一种基于预训练的语言模型的事件生成办法,如图 4 所示。通过编辑原型,该办法能够生成可控数量的标记样本作为额定的训练语料库。它包含三个阶段:预处理、事件生成和评分。为了便于生成办法,论文将辅助标记定义为句子中除触发器和元素外的标记,不仅包含单词和数字,还包含标点符号。以图 1 中的句子为例,“is”和“going”是附加令牌。很显著,辅助标记能够调节表白的平滑性和多样性。因而,咱们试图重写它们,以扩大生成后果的多样性,同时放弃触发器和元素不变。

预处理
首先在 ACE2005 数据集中收集元素以及它们所表演的角色。然而,这些与其余论点重叠的论点被排除在外。因为这样的元素通常是长的复合短语,蕴含太多意想不到的信息,将它们合并在元素替换中可能会带来更多不必要的谬误。

在接下来的阶段,论文还采纳 BERT 作为指标模型来重写辅助标记,并应用掩码语言模型工作对 ACE2005 数据集进行微调,以使其预测偏差于数据集散布。与 BERT 的预训练程序一样,每次抽取一批句子,并覆盖 15% 的令牌。它的指标依然是在没有监督的状况下预测正确的标记 

事件生成
为了生成事件,论文在一个原型上执行了两个步骤。首先将原型中的参元素替换为那些施展了雷同作用的相似元素。接下来,用精密的 BERT 重写附加令牌。通过这两个步骤,就能够取得一个带有正文的新句子

  • (1)元素替换
    第一步是在事件中替换元素。要被替换的元素和新的元素都应该施展同样的作用。尽管角色是在替换后继承的,所以依然能够为生成的样本应用原点标签。为了不彻底改变意义,应用相似性作为抉择新元素的规范。它基于以下两个思考:一个是施展雷同作用的两个元素在语义上可能存在显著差别;另一个起因是,一个元素所表演的角色在很大水平上取决于它的上下文。

因而,应该抉择在语义上类似且与上下文统一的元素应用嵌入之间的余弦类似度来掂量两个元素的相似性。因为 ELMO 具备解决 OOV 问题的能力,论文应用它来嵌入元素:

 其中 a 是元素,E 是 ELMO 嵌入。咱们抉择最类似的 top 10 元素作为候选,并对它们的相似性应用 softmax 操作来调配概率。一个元素被替换为概率 80%,同时放弃概率 20% 的概率不变,以使事件示意偏差于理论事件。须要留神的是,触发器放弃不变,以防止依赖关系的不良偏差

  • (2)重写 adjunct tokens
    元素替换的后果曾经能够看作是生成的数据,但固定的上下文可能会减少过拟合的危险。因而,为了平滑数据并扩大其多样性,论文应用微调后的 BERT 进行 adjunct tokens 的重写。

重写是为了将原型中的一些辅助标记替换为与以后上下文更匹配的新标记。论文将它作为一个完形填空,其中一些 adjunct tokens 被随机屏蔽,第一阶段的 BERT 微调用于基于上下文预测适合令牌的词汇 id。论文应用一个元素 m 来示意须要重写的 adjunct tokens 的比例。

附加令牌重写是一个一步一步的过程。每次屏蔽 15% 的 adjunct tokens(应用令牌[MASK])。而后将句子输出 BERT,产生新的 adjunct tokens。尚未被重写的 adjunct tokens 将临时保留在句子中。

  • 对事件打分
    实践上,用论文的生成办法能够产生有限数量的事件。然而,并不是所有的办法对提取器都有价值,有些甚至可能升高其性能。因而,论文减少了一个额定的阶段来量化每个生成的样本的品质,以挑选出那些有价值的样本。评估品质的关键在于,它与两个元素严密相干,即困惑度和到原始数据集的间隔。前者反映了生成的合理性,后者反映了数据之间的差别。困惑度(Perplexity, PPL)

     
    A 示意在句子 S ′中已被重写的 adjunct tokens

  • 间隔(Distance, DIS)
    应用余弦相似性:

与 ELMO 的嵌入参数不同,论文利用 BERT 来嵌入句子,并将嵌入的第一个标记 [CLS] 作为句子的嵌入。PPL 和 DIS 在 [0,1] 中都是无限的。论文认为生成的高质量样品应该同时具备低 PPL 和 DIS。因而,将品质函数定义为:

 其中 λ∈[0,1]为均衡参数。该函数用于抉择试验中生成的高质量样本。

试验后果:

  • PLMEE 试验选用的数据集为 ACE2005,
    试验后果的评估规范:触发器预测正确:span 和 type 和实在值统一;元素预测正确:span 和所有角色标签都预测正确。采纳精度(P)、召回率(R)和 F 度量(F1)作为评估指标。失去了如下图所示的试验后果:

    表 2 在测试集上将上述模型的后果与 PLMEE 进行了比拟。如图所示,在触发器提取工作和元素提取工作中,PLMEE(-)在所有比拟的办法中都获得了最好的后果。触发器提取的改良十分显著,F1 分数大幅减少近 10%。尽管元素提取方面的改良不太显著,达到了 2% 左右。这可能是因为咱们采纳了更严格的评估规范,以及元素提取工作的难度。此外,与基于特色的办法相比,基于神经网络的办法能够取得更好的性能。在比拟基于内部资源的办法和基于神经的办法时,也呈现了同样的察看后果。它表明,内部资源对于改良事件提取十分有用。此外,与 PLMEE(-)模型相比,PLMEE 模型在元素提取工作上能够获得更好的后果,辨认 F1 得分进步 0.6%,分类得分进步 0.5%,这意味着从新加权损失能够无效进步性能

     表 3 显示了一个原型及其生成事件,元素 m 范畴为 0.2 至 1.0。能够察看到,替换后的变元与原型中的语境匹配较好,这表明它们在语义上与原型类似。另一方面,重写附加标记能够平滑生成的数据并扩大其多样性。然而,因为没有明确的领导,此步骤还可能引入不可预测的噪声,使生成过程不如预期晦涩。

总结:

论文解决的是 EE 问题,提出 PLMEE 模型,模型由事件抽取模型和生成模型两局部组成,这两个模块都应用到了预训练语言模型来引入更丰盛的常识。

针对角色重叠问题,论文的抽取办法依据角色拆散了元素预测,针对每个元素应用一组二分类器,预测元素的角色标签。并依据不同角色对该类型事件的重要性,对损失函数的权重进行了重调配。

针对训练数据无限、人工标注耗时耗力的问题,本文提出了一个事件生成办法,通过元素替换和重写 adjunct tokens 生成新的事件样本,并应用一个打分函数对样本进行评分,选取高质量的样本作为训练数据的补充。试验证实了该事件生成模型的有效性,将事件生成模型和事件抽取模型相结合能够加强事件抽取模型的性能。

  • PLMEE 模型的局限性:
    (1)同一类型的事件通常具备相似性,并且共现的角色通常有很强的关联,然而 PLMEE 模型疏忽了这些特色。
    (2)只管生成模型中应用了评分函数对生成的样本进行筛选,但仍面临着和近程监督办法一样的角色偏离问题。(因为 adjunct tokens 重写之后语义可能会产生很大的变动)
  • 将来工作:
    将事件间的关联和元素间的关联纳入思考,并合并到预训练语言模型中;应用更无效的度量办法,克服生成模型的角色偏离问题。
退出移动版