关于事件:技术白皮书第五章信息抽取技术的未来发展趋势和面临的挑战

6次阅读

共计 6243 个字符,预计需要花费 16 分钟才能阅读完成。

5. 信息抽取技术的将来发展趋势和面临的挑战

5.1 NER 技术的将来发展趋势和面临的挑战

论文《 Survey on Deep Learning for Named Entity Recognition》总结了 NER 技术面临的挑战和将来倒退方向。随着建模语言的提高和理论利用的需要,NER 会失去钻研人员更多的关注。另一方面,NER 通常被视为上游应用程序的预处理组件。这意味着特定的 NER 工作由上游应用程序的需要定义,例如,命名实体的类型以及是否须要检测嵌套实体。

以下是 NER 钻研的以下进一步摸索方向。

1. 细粒度 NER 和边界检测。
尽管许多现有钻研(《Neural architectures for named entity recognition》、《End-to-end sequence labeling via bidirectional lstm-cnns-crf》、《Robust lexical features for improved neural network named-entity recognition》)都集中在个别畛域的粗粒度 NER 上,但论文冀望在特定畛域对细粒度 NER 进行更多钻研,以反对各种理论的 word 利用(《Software-specific named entity recognition in software engineering social content》)。细粒度 NER 面临的挑战是命名实体类型的显著减少,以及容许一个命名实体具备多个命名实体类型所带来的复杂性。这须要从新拜访常见的 NER 办法,其中实体边界和类型同时被检测,例如,通过应用 B -I-E-S-(实体类型)和 O 作为解码标签。值得思考的是,将命名实体边界检测定义为一项专用工作,以检测命名实体边界,同时疏忽命名实体类型。

边界检测和命名实体类型分类的解耦实现了边界检测的通用和鲁棒的解决方案,这些解决方案能够在不同畛域共享,并为命名实体类型分类提供了专用的畛域特定办法。正确的实体边界还能无效地缓解实体链接到知识库中的谬误流传。曾经有一些钻研,认为实体边界检测是 NER 中的两头步骤(即子工作)。据论文所知,目前还没有专门针对实体边界检测的工作来提供一个鲁棒的识别器。论文期待着在将来这一钻研方向的冲破。

2. 联结 NER 和实体链接。
实体链接(EL)也称为命名实体规范化或消歧,旨在参考知识库为文本中提到的实体调配惟一身份,例如通用畛域的维基百科和生物医学畛域的对立医学语言零碎(UMLS)。大多数现有工作将 NER 和 EL 独自作为流水线(pipeline)设置中的两个独立工作来解决。论文认为,胜利链接的实体(例如,通过知识库中的相干实体)所携带的语义显著丰盛。也就是说,链接实体有助于胜利检测实体边界和正确分类实体类型。值得摸索联结执行 NER 和 EL,甚至实体边界检测、实体类型分类和实体链接的办法,以便每个子工作都能从其余子工作的局部输入中受害,并缩小流水线(pipeline)设置中不可避免的谬误流传。

3. 有辅助资源的非正式文本上基于 DL 的 NER
基于非正式文本或用户生成内容的 DL-NER 的性能依然很低。这须要在这方面进行更多的钻研。特地是,论文留神到,NER 的性能显著受害于辅助资源的可用性,例如用户语言中的地位名称词典。尽管没有提供强有力的证据表明,波及地名词典,作为额定的特色能够导致 NER 在通用畛域的性能晋升,但论文认为辅助资源往往是必要的,以更好地理解用户生成的内容。问题是如何为用户生成的内容或特定畛域的文本上的 NER 工作获取匹配的辅助资源,以及如何无效地将辅助资源合并到基于深度学习的 NER 中。

4. 基于 DL 的 NER 的可伸缩性。
使神经网络模型更具可伸缩性依然是一个挑战。此外,当数据量减少时,依然须要优化参数指数增长的解决方案(《A review on deep learning for recommender systems: challenges and remedies》)。一些基于 DL 的 NER 模型以微小的计算能力为代价获得了良好的性能。例如,ELMo 示意用 3×1024 维向量示意每个单词,模型在 32 个 GPU 上训练了 5 周(《Contextual string embeddings for sequence labeling》)。Google BERT 示意在 64 个云 TPU 上进行训练。然而,如果终端用户无法访问弱小的计算资源,他们就无奈对这些模型进行微调。开发均衡模型复杂性和可伸缩性的办法将是一个有前途的方向。另一方面,模型压缩和剪枝技术也能够用来缩小模型学习所需的空间和计算工夫。

5.NER 的深度迁徙学习。
许多以实体为核心的应用程序求助于现成的 NER 零碎来辨认命名实体。然而,因为语言特色的差别以及正文的差别,在一个数据集上训练的模型可能无奈在其余文本上很好地工作。只管有一些钻研将深度迁徙学习利用于 NER,但这个问题尚未失去充沛探讨。将来应致力于如何通过摸索以下钻研问题,无效地将常识从一个畛域转移到另一个畛域:(a)开发一个可能跨不同畛域工作的鲁棒识别器;(b)摸索 NER 工作中的 zero-shot, one-shot 和 few-shot learning;(c)提供解决跨域设置中的域不匹配和标签不匹配的解决方案。

6. 一个易于应用的工具包,用于基于 DL 的 NER。
最近,Röder 等人开发了 GERBIL(《GERBIL – benchmarking named entity recognition and linking consistently》),它为钻研人员、最终用户和开发人员提供了易于应用的界面,用于对实体正文工具进行基准测试,目标是确保可反复和可架构的试验。然而,它不波及最新的基于 DL 的技术。Ott 介绍了 FAIRSEQ(《fairseq: A fast, extensible toolkit for sequence modeling》),这是一个疾速、可扩大的序列建模工具包,特地是用于机器翻译和文本形容。Dernoncourt 等人实现了一个名为 NeuroNER 的框架(《NeuroNER: an easy-to-use program for named-entity recognition based on neural networks》),它只依赖于循环神经网络的一个变体。近年来,许多深度学习框架(例如 TensorFlow、PyTorch 和 Keras)被设计为通过高级编程接口为设计、训练和验证深度神经网络提供构建模块。论文构想,一个易于应用的 NER 工具包能够领导开发人员应用一些标准化模块来实现它:数据处理、输出示意、上下文编码器、标记解码器和有效性度量。论文置信,专家和非专家都能够从这些工具包中受害。

7. 数据标注。
受监督的 NER 零碎,包含基于深度学习的 NER,在训练中须要大量带标注的数据。然而,数据标注十分耗时和低廉。对于许多资源匮乏的语言和特定畛域来说,这是一个微小的挑战,因为须要相干领域专家来执行数据标注的工作。
因为语言的模糊性,标注的品质和一致性都是次要问题。例如,同一个命名实体能够用不同的类型进行正文。例如,““Baltimore defeated the Yankees”一句中的“Baltimore”,在 MUC- 7 中被标记为地位,在 CoNLL03 中被标记为组织。在 CoNLL03 和 ACE 数据集中,“Empire State”和“Empire State Building”都被标记为地位,导致实体边界凌乱。因为数据标注的不一致性,即便两个数据集中的文档来自同一个域,在一个数据集中训练的模型在另一个数据集中也可能无奈很好地工作。
为了使数据正文更加简单,Katiyar 和 Cardie(《Nested named entity recognition revisited》)报告说嵌套实体相当常见:GENIA 语料库中 17% 的实体嵌入到另一个实体中;在 ACE 语料库中,30% 的句子蕴含嵌套实体。须要开发实用于嵌套实体和细粒度实体的通用正文计划,其中一个命名实体能够被调配多种类型。

8. 非正式文本和没见过的实体。
正式文件(如新闻文章)的数据集报告了不错的后果。然而,在用户生成的文本上,最佳准确率分数略高于 40%。非正式文本(如推文、评论、用户论坛)的 NER 比正式文本更具挑战性,因为其简短并有噪声。许多用户生成的文本也是特定畛域的。在许多利用场景中,NER 零碎必须解决用户生成的文本,例如电子商务和银行中的客户反对。评估 NER 零碎的鲁棒性和有效性的另一个乏味维度是,它可能在新呈现的文本中辨认不寻常的、以前没见过的实体。

5.2 实体关系抽取技术的将来发展趋势和面临的挑战

在北京林业大学的论文《实体关系抽取办法钻研综述》中提出:目前, 实体关系抽取技术日渐成熟, 但仍然须要钻研人员投入大量精力进行一直摸索, 通过对现有实体关系抽取钻研工作进行总结, 在当前的钻研中能够从5个方面开展相干的钻研。

1. 从二元关系抽取到多元关系抽取的转化。
以后的关系抽取零碎次要集中在2个实体之间的二元关系抽取, 但并非所有的关系都是二元的, 如有些关系实例须要思考工夫和地点等信息, 所以会思考更多的论元。目前已有相干论文提出针对多元关系抽取的办法, 但该办法与二元关系抽取模型相比, 在准确率和召回率上仍有较大的差距。如何依据上下文信息, 辨认逾越句子的多元实体关系, 进步关系抽取的准确率和智能化, 这促使研究者一直投入更多的精力。

2. 凋谢畛域的实体关系抽取的深入研究。
目前的钻研工作大多面向特定的关系类型或者特定畛域,而应用特定的语料库, 很难做到其余畛域的主动迁徙。尽管,一些研究者针对凋谢畛域的关系抽取进行了钻研, 提出了一系列的办法用于实体关系抽取,然而这类办法和特定畛域相比仍有肯定的差距。如何一直进步零碎的准确率、可移植性以及可扩展性,这都激励着钻研人员投入更多的精力和工夫, 促成凋谢畛域的实体关系抽取的倒退。

3. 近程监督关系抽取办法失去不断改进。
目前, 因为近程监督的办法依然存在谬误标签和误差流传2个次要问题, 研究者多是基于这些问题对深度学习的关系抽取模型加以改进。为了防止产生过多的谬误标签, 人们次要采纳多示例、注意力机制的办法等办法缩小乐音数据。目前已有相干办法交融加强学习和近程监督办法的长处,一直地缩小谬误标签, 进而升高负类数据对关系抽取模型的影响。针对误差流传的问题, 研究者多是对句子的语义信息进行深刻开掘, 而对句子语法信息却少有波及。如何无效地解决近程监督产生的谬误标签和误差流传, 如何无效地交融语法和语义信息, 这些问题将激励着研究者不断改进相干算法, 一直进步深度学习办法的性能。

4. 深度学习有监督办法的性能晋升。
近年来, 越来越多的钻研人员关注于联结学习和基于图构造的抽取办法。联结学习将命名实体辨认和关系抽取作为一个工作, 缩小了错误信息的积攒和流传, 也缩小了冗余信息对模型的影响。而针对关系重叠和实体间潜在特色等问题, 基于图构造的抽取办法提供了一些新的思路。然而这2种办法的性能还需进一步改良, 一直促成信息抽取畛域的倒退。

5. 工业级实体关系抽取零碎的持续研发。
关系抽取现已被广泛应用于智能搜寻、智能问答、个性化举荐、内容散发、权限治理, 人力资源管理等畛域。通过对学术研究和市场需求进行深刻地交融, 一直进步实体关系抽取的可靠性、置信度、执行效率等, 促成关系抽取模型的性能进一步失去晋升, 为人们的生存提供更多便当。

5.3 事件抽取技术的将来发展趋势和面临的挑战

在文本开掘中,事件提取是一项重要且具备挑战性的工作,它次要从形容事件的相干文本中学习事件的结构化示意。事件提取次要分为两个子工作:事件检测和参数提取。事件抽取的外围是辨认文本中与事件相干的词,并将其分类。基于深度学习模型的事件提取办法主动提取特色,防止了手工设计特色的繁琐工作。事件提取工作被结构为一个端到端系统,应用具备丰盛语言特色的词向量作为输出,以缩小底层 NLP 工具造成的谬误。以前的办法侧重于钻研无效特色,以获取候选触发器、候选参数的词汇、句法和语义信息。此外,他们还探讨了触发器和与同一触发器相干的多个实体之间的依赖关系,以及与同一实体相干的多个触发器之间的关系。依据事件提取的特点和目前的钻研现状,论文总结了以下技术挑战。

事件抽取语料库面临的挑战

1. 事件提取数据集构建。
事件提取工作简单,现有的预训练模型不足对事件提取工作的学习。现有的事件提取数据集只有大量的标记数据,手工标注事件提取数据集的工夫老本较高。因而,构建大规模事件提取数据集或设计主动构建事件提取数据集也是将来的钻研趋势。

2. 新的数据集。
事件提取的数据集很小。深度学习联合内部资源,构建大规模数据集,获得了良好的成果。因为标记数据集的构建艰难,且数据集规模较小,如何更好地利用深度学习,借助内部资源无效地提取事件,也是一个迫切的钻研方向。

3. 事件提取模式。
事件提取办法可分为关闭域事件提取办法和凋谢域事件提取办法。没有模式的事件提取办法的成果很难评估,基于模板的事件提取办法须要依据不同的事件类型设计不同的事件模式。因而,如何设计一个通用的事件抽取基于事件特色的模式是克服构建事件抽取数据集和类间常识共享艰难的重要伎俩。

事件提取模型的挑战

1. 依赖学习
目前,基于 BERT 的事件提取办法曾经成为支流。然而,事件提取不同于训练前由 BERT 模型学习的工作。参数提取须要思考事件参数角色之间的关系,以提取同一事件类型下的不同角色。它须要事件提取模型来学习文本的语法依赖关系。因而,建设事件参数之间的依赖关系是全面、精确地提取每种事件类型的参数亟待解决的问题。

2. 端到端学习模型
与传统办法相比,基于联结模型的深度学习办法的劣势在于联结示意模式。事件提取取决于实体的标签。因而,本文认为,建设基于深度学习的端到端自主学习模型是一个值得钻研和摸索的方向,如何设计多任务多联动的学习模型是一个重大挑战。

3. 多事件提取。
依据事件提取的粒度不同,事件提取可分为句子级事件提取和文档级事件提取。对于句子级事件抽取的钻研曾经很多。然而,文档级事件提取仍处于摸索阶段,文档级事件提取更靠近理论利用。因而,如何设计文本的多事件抽取办法具备重要的钻研意义。

4. 域事件提取。
域文本通常蕴含大量的技术术语,这减少了域事件提取的难度。因而,如何设计无效的办法来了解畛域文本中深层的语义信息和上下文对应关系已成为亟待解决的问题。


参考文献:

  • Jing Li, Aixin Sun, Jianglei Han, and Chenliang Li,“A Survey on Deep Learning for Named Entity Recognition,”IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, 2020
  • 李冬梅,张扬,李东远,林丹琼 . 实体关系抽取办法钻研综述[J]. 计算机钻研与倒退,2020,57(7)
  • Qian Li, Jianxin Li, Jiawei Sheng, Shiyao Cui, Jia Wu,Yiming Hei, Hao Peng,Shu Guo, Lihong Wang, Amin Beheshti, and Philip S ,“A Compact Survey on Event Extraction: Approaches and Applications,“IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS, VOL. 14, NO. 9, NOVEMBER 2021
正文完
 0