共计 3147 个字符,预计需要花费 8 分钟才能阅读完成。
动动发财的小手,点个赞吧!
NLP 中联合结构化和非结构化常识的钻研详情
自 2012 年谷歌推出常识图谱 (KG) 以来,常识图谱 (KGs) 在学术界和工业界都引起了宽泛关注 (Singhal, 2012)。作为实体之间语义关系的示意,常识图谱已被证实与自然语言解决(NLP)特地相干,并且在最近几年迅速流行起来,这一趋势仿佛正在减速。鉴于该畛域的钻研工作越来越多,NLP 钻研界曾经对几种与 KG 相干的办法进行了考察。然而,迄今为止,仍不足对既定主题进行分类并审查各个钻研流的成熟度的综合钻研。为了放大这一差距,咱们系统地剖析了 NLP 中对于常识图谱的文献中的 507 篇论文。因而,本文对钻研前景进行了结构化概述,提供了工作分类,总结了发现,并强调了将来工作的方向。
什么是自然语言解决?
自然语言解决 (NLP) 是语言学、计算机科学和人工智能的一个子畛域,关注计算机与人类语言之间的交互,特地是如何对计算机进行编程以解决和剖析大量自然语言数据。
什么是常识图?
KGs 曾经成为一种以机器可读格局语义示意真实世界实体常识的办法。大多数作品隐含地采纳了常识图谱的狭义定义,将它们了解为“旨在积攒和传播事实世界常识的数据图,其节点代表感兴趣的实体,其边代表这些实体之间的关系”。
为什么咱们在 NLP 中应用常识图谱?
底层范式是结构化和非结构化常识的联合能够使各种 NLP 工作受害。例如,能够将常识图谱中的结构化常识注入语言模型中发现的上下文常识中,从而进步上游工作的性能(Colon-Hernandez 等人,2021)。此外,鉴于以后对于大型语言模型(例如 ChatGPT)的公开探讨,咱们可能会应用 KG 来验证并在必要时纠正生成模型的幻觉和谬误陈说。此外,随着 KG 的重要性日益减少,从非结构化文本构建新的 KG 的致力也在不断扩大。
NLP 中如何应用常识图谱?
钻研格局的特点
下图显示了十年察看期内的出版物散布状况。
尽管第一批出版物呈现在 2013 年,但年度出版物在 2013 年至 2016 年间增长迟缓。从 2017 年开始,出版物数量简直每年翻一番。因为这些年钻研趣味的显着减少,超过 90% 的出版物都来自这五年。只管增长趋势仿佛在 2021 年进行,但这很可能是因为数据导出产生在 2022 年的第一周,脱漏了许多 2021 年的钻研,这些钻研在 2022 年晚些时候被纳入数据库。尽管如此,趋势分明地表明 KG 越来越受到 NLP 钻研界的关注。
此外,咱们察看到钻研文献中摸索的畛域数量与年度论文数量同步快速增长。在下图中,显示了十个最罕用的域。
令人诧异的是,衰弱是迄今为止最突出的畛域。后者呈现的频率是排名第二的学术畛域的两倍多。其余受欢迎的畛域是工程、商业、社交媒体或法律。鉴于畛域的多样性,很显著 KGs 天然实用于许多不同的环境。
钻研文献中的工作
基于 NLP 常识图谱文献中确定的工作,咱们开发了如下所示的实证分类法。
两个顶级类别包含常识获取和常识利用。常识获取蕴含 NLP 工作,从非结构化文本构建常识图谱(常识图谱构建)或对已构建的常识图谱进行推理(常识图谱推理)。KG 构建工作进一步分为两个子类:常识提取,用于用实体、关系或属性填充 KG,以及常识集成,用于更新 KG。常识利用是第二个顶级概念,蕴含常见的 NLP 工作,这些工作通过 KG 的结构化常识失去加强。
常识图谱构建
实体提取工作是构建常识图谱的终点,用于从非结构化文本中提取真实世界的实体。一旦相干实体被筛选进去,它们之间的关系和交互就会通过关系抽取的工作被发现。许多论文同时应用实体抽取和关系抽取来构建新的常识图谱,例如,用于新闻事件或学术研究。实体链接是将某些文本中辨认的实体链接到常识图谱中曾经存在的实体的工作。因为同义或类似的实体常常存在于不同的常识图谱或不同的语言中,因而能够执行实体对齐以缩小将来工作中的冗余和反复。提出 KGs 的规定和计划,即它们在其中出现的常识的构造和格局,是通过本体构建的工作实现的。
常识图谱推理
一旦构建,常识图谱就蕴含结构化的世界常识,可用于通过对它们进行推理来推断新常识。因而,对实体进行分类的工作称为实体分类,而链接预测是推断现有常识图谱中实体之间缺失链接的工作,通常通过对实体进行排序作为查问的可能答案来执行。常识图嵌入技术用于创立图的密集向量示意,以便它们随后可用于上游机器学习工作。
常识利用
现有的常识图谱可用于多种风行的 NLP 工作。在这里,咱们概述了最受欢迎的。问答 (QA) 被发现是应用常识图谱最常见的 NLP 工作。此工作通常分为文本 QA 和知识库问答 (KBQA)。文本 QA 从非结构化文档中获取答案,而 KBQA 从预约义的知识库中获取答案。KBQA 天然地与 KGs 分割在一起,而文本 QA 也能够通过应用 KGs 作为答复问题时的常识性常识起源来实现。这种办法之所以受欢迎,不仅因为它有助于生成答案,还因为它使答案更易于解释。语义搜寻是指“有意义的搜寻”,其指标不仅仅是搜寻字面匹配,还包含理解搜寻用意和查问上下文。此标签示意应用常识图谱进行搜寻、举荐和剖析的钻研。示例是称为 ConceptNet 的日常概念的大型语义网络和学术交流和关系的 KG,其中包含 Microsoft Academic Graph。对话界面形成了另一个 NLP 畛域,能够从常识图谱中蕴含的世界常识中获益。咱们能够利用常识图谱中的常识来生成会话代理的响应,这些响应在给定的上下文中提供的信息更丰盛、更适合。
自然语言生成 (NLG) 是 NLP 和计算语言学的一个子畛域,它与从头开始生成自然语言输入的模型无关。KG 在此子畛域中用于从 KG 生成自然语言文本、生成问答对、图像字幕的多模式工作或低资源设置中的数据加强。文本剖析联合了各种用于解决和了解文本数据的剖析 NLP 技术和办法。示例性工作是情绪检测、主题建模或词义消歧。加强语言模型是大型预训练语言模型 (PLM) 的组合,例如 BERT(Devlin 等人,2019 年)和 GPT(Radford 等人,2018 年)与常识图谱中蕴含的常识。因为 PLM 从大量非结构化训练数据中获取常识,因而将它们与结构化常识相结合的钻研趋势正在衰亡。来自常识图谱的常识能够通过输出、架构、输入或它们的某种组合被注入语言模型。
在 NLP 中应用常识图的热门工作
下图显示了 NLP 中应用常识图谱最风行的工作。
咱们能够察看到,诸如关系抽取或语义搜寻之类的工作曾经存在了一段时间,并持续稳步增长。在咱们的钻研中,咱们应用这个作为一个指标来得出关系提取或语义搜寻等工作曾经相当成熟的论断。相比之下,加强语言模型和常识图嵌入工作依然能够被认为是绝对不成熟的。这可能是因为这些工作还绝对年老且钻研较少。上图显示,这两项工作从 2018 年开始钻研量急剧减少,并引起了宽泛关注。
总结
近年来,KGs 在 NLP 钻研中的位置日益突出。自 2013 年首次发表以来,全世界的钻研人员越来越关注从 NLP 的角度钻研常识图谱,尤其是在过来的五年中。为了概述这个成熟的钻研畛域,咱们对 KGs 在 NLP 中的应用进行了多方面的考察。咱们的钻研结果表明,NLP 中无关常识图谱的大量工作已在各个领域进行了钻研。对于应用实体抽取和关系抽取构建 KG 的论文占所有作品的大部分。QA 和语义搜寻等利用 NLP 工作也有弱小的钻研社区。近年来最新兴的主题是加强语言模型、QA 和 KG 嵌入。
一些概述的工作依然局限于钻研界,而其余工作曾经在许多现实生活中找到了理论利用。咱们察看到 KG 构建工作和对 KG 的语义搜寻是利用最宽泛的工作。在 NLP 工作中,QA 和对话界面已被许多现实生活畛域采纳,通常以数字助理的模式呈现。KG 嵌入和加强语言模型等工作仍处于钻研阶段,在事实场景中不足宽泛的理论利用。咱们预计,随着加强语言模型和 KG 嵌入的钻研畛域的成熟,将针对这些工作钻研更多的办法和工具。
本文由 mdnice 多平台公布