关于美团:ACL-2021-一文详解美团技术团队7篇精选论文

45次阅读

共计 9605 个字符,预计需要花费 25 分钟才能阅读完成。

ACL 是计算语言学和自然语言解决畛域最重要的顶级国内会议。据谷歌学术计算语言学刊物指标显示,ACL 影响力位列第一,是 CCF- A 类举荐会议。美团技术团队共有 7 篇论文(其中 6 篇长文,1 篇短文)被 ACL 2021 接管,这些论文是美团技术团队在事件抽取、实体辨认、用意辨认、新槽位发现、无监督句子示意、语义解析、文档检索等自然语言解决工作上的一些前沿摸索及利用。

计算语言学协会年会(ACL 2021)于 2021 年 8 月 1 日至 6 日在泰国曼谷举办(虚构线上会议)。ACL 是计算语言学和自然语言解决畛域最重要的顶级国内会议,该会议由国内计算语言学协会组织,每年举办一次。据谷歌学术计算语言学刊物指标显示,ACL 影响力位列第一,是 CCF- A 类举荐会议。往年 ACL 的主题是“NLP for Social Good”。据官网统计信息,本次会议共收到 3350 篇无效投稿,共计接管 710 篇主会论文(承受率为 21.3%),493 篇 Findings 论文(承受率为 14.9%)。

美团技术团队共有 7 篇论文(其中 6 篇长文,1 篇短文)被 ACL 2021 接管,这些论文是美团在事件抽取、实体辨认、用意辨认、新槽位发现、无监督句子示意、语义解析、文档检索等自然语言解决工作上的一些技术积淀和利用。

针对于事件抽取,咱们显示地利用周边实体的语义级别的论元角色信息,提出了一个双向实体级解码器(BERD)来逐渐对每个实体生成论元角色序列;针对于实体辨认,咱们首次提出了槽间可迁徙度的概念,并为此提出了一种槽间可迁徙度的计算形式,通过比拟指标槽与源工作槽的可迁徙度,为不同的指标槽寻找相应的源工作槽作为其源槽,只基于这些源槽的训练数据来为指标槽构建槽填充模型;针对于用意辨认,咱们提出了一种基于监督比照学习的用意特色学习办法,通过最大化类间间隔和最小化类内方差来晋升用意之间的区分度;针对于新槽位发现,咱们首次定义了新槽位辨认(Novel Slot Detection, NSD)工作,与传统槽位辨认工作不同的是,新槽位辨认工作试图基于已有的域内槽位标注数据去开掘发现实在对话数据里存在的新槽位,进而一直地欠缺和加强对话零碎的能力。

此外,为解决 BERT 原生句子示意的“坍缩”景象,咱们提出了基于比照学习的句子示意迁徙办法—ConSERT,通过在指标畛域的无监督语料上 Fine-Tune,使模型生成的句子示意与上游工作的数据分布更加适配。咱们还提出了一种新的无监督的语义解析办法——同步语义解码(SSD),它能够联结使用复述和语法束缚解码同时解决语义鸿沟与构造鸿沟的问题。咱们还从改良文档的编码动手来进步文档编码的语义示意能力,既进步了成果也进步了检索效率。

接下来,咱们将对这 7 篇学术论文做一个更加具体的介绍,心愿能对那些从事相干钻研的同学有所帮忙或启发,也欢送大家在文末评论区留言,一起交换。

01 Capturing Event Argument Interaction via A Bi-Directional Entity-Level Recurrent Decoder

| 论文下载
| 论文作者:习翔宇,叶蔚(北京大学),张通(北京大学),张世琨(北京大学),王全修(RICHAI),江会星,武威
| 论文类型:Main Conference Long Paper(Oral)

事件抽取是信息抽取畛域一个重要且富裕挑战性的工作,在主动文摘、主动问答、信息检索、常识图谱构建等畛域有着宽泛的利用,旨在从非结构化的文本中抽取出结构化的事件信息。事件论元抽取对具体事件的形容信息(称之为论元信息)进行抽取,包含事件参与者、事件属性等信息,是事件抽取中重要且难度极大的工作。绝大部分论元抽取办法通常将论元抽取建模为针对实体和相干事件的论元角色分类工作,并且针对一个句子中实体汇合的每个实体进行拆散地训练与测试,疏忽了候选论元之间潜在的交互关系;而局部利用了论元交互信息的办法,都未充分利用周边实体的语义级别的论元角色信息,同时疏忽了在特定事件中的多论元分布模式。

针对目前事件论元检测中存在的问题,本文提出显示地利用周边实体的语义级别的论元角色信息。为此,本文首先将论元检测建模为实体级别的解码问题,给定句子和已知事件,论元检测模型须要生成论元角色序列;同时与传统的词级别的 Seq2Seq 模型不同,本文提出了一个双向实体级解码器(BERD)来逐渐对每个实体生成论元角色序列。具体来说,本文设计了实体级别的解码循环单元,可能同时利用以后实例信息和周边论元信息;并同时采纳了前向和后向解码器,可能别离从左往右和从右往左地对以后实体进行预测,并在单向解码过程中利用到左侧 / 右侧的论元信息;最终,本文在两个方向解码实现之后,采纳了一个分类器联合双向编码器的特色来进行最终预测,从而可能同时利用左右两侧的论元信息。

本文在公开数据集 ACE 2005 上进行了试验,并与多种已有模型以及最新的论元交互办法进行比照。试验结果表明该办法性能优于现有的论元交互办法,同时在实体数量较多的事件中晋升成果更加显著。

02 Slot Transferability for Cross-domain Slot Filling

| 论文下载
| 论文作者:陆恒通(北京邮电大学),韩卓芯(北京邮电大学),袁彩霞(北京邮电大学),王小捷(北京邮电大学),雷书彧,江会星,武威
| 论文类型:Findings of ACL 2021, Long Paper

槽填充旨在辨认用户话语中工作相干的槽信息,是工作型对话零碎的要害局部。当某个工作(或称为畛域)具备较多训练数据时,已有的槽填充模型能够取得较好的辨认性能。然而,对于一个新工作,往往只有很少甚至没有槽标注语料,如何利用一个或多个已有工作(源工作)的标注语料来训练新工作(指标工作)中的槽填充模型,这对于工作型对话零碎利用的疾速扩大有着重要的意义。

针对该问题的现有钻研次要分为两种,第一种通过建设源工作槽信息示意与指标工作槽信息示意之间的隐式语义对齐,来将用源工作数据训练的模型间接用于指标工作,这些办法将槽形容、槽值样本等蕴含槽信息的内容与词示意以肯定形式进行交互失去槽相干的词示意,之后进行基于“BIO”的槽标注。第二种思路采纳两阶段策略进行,将所有槽值看作实体,首先用源工作数据训练一个通用实体辨认模型辨认指标工作所有候选槽值,之后将候选槽值通过与指标工作槽信息的示意进行类似度比照来分类到指标工作的槽上。

现有的工作,大多关注于构建利用源 - 指标工作之间关联信息的跨工作迁徙模型,模型构建时个别应用所有源工作的数据。然而,实际上,并不是所有的源工作数据都会对指标工作的槽辨认具备可迁徙的价值,或者不同源工作数据对于特定指标工作的价值可能是很不雷同的。例如:机票预约工作和火车票预约工作类似度高,前者的槽填充训练数据会对后者具备帮忙,而机票预约工作和天气查问工作则差别较大,前者的训练数据对后者没有或只具备很小的借鉴价值,甚至起到烦扰作用。

再进一步,即便源工作和指标工作很类似,然而并不是每个源工作的槽的训练数据都会对指标工作的所有槽都有帮忙,例如,机票预约工作的登程时间槽训练数据可能对火车票预约工作的登程时间槽填充有帮忙,然而对火车类型槽就没有帮忙,反而起到烦扰作用。因而,咱们心愿能够为指标工作中的每一个槽找到能提供无效迁徙信息的一个或多个源工作槽,基于这些槽的训练数据构建跨工作迁徙模型,能够更为无效地利用源工作数据。

为此,咱们首先提出了槽间可迁徙度的概念,并为此提出了一种槽间可迁徙度的计算形式,基于可迁徙度的计算,咱们提出了一种为指标工作抉择出源工作中可能提供无效迁徙信息的槽的办法。通过比拟指标槽与源工作槽的可迁徙度,为不同的指标槽寻找相应的源工作槽作为其源槽,只基于这些源槽的训练数据来为指标槽构建槽填充模型。具体来说,可迁徙度交融了指标槽和源槽之间的槽值示意散布类似度,以及槽值上下文示意散布类似度作为两个槽之间的可迁徙度,而后对源工作槽根据其与指标槽之间的可迁徙度高下进行排序,用可迁徙度最高的槽所对应训练语料训练一个槽填充模型,失去其在指标槽验证集上的性能,根据依照可迁徙度排序退出新的源工作槽对应训练语料训练模型并失去对应的验证集性能,选取性能最高的点对应的源工作槽及可迁徙度高于该槽的源工作槽作为其源槽。利用抉择进去的源槽构建指标槽槽填充模型。

槽填充模型根据槽值信息及槽值的上下文信息对槽值进行辨认,所以咱们在计算槽间可迁徙度时,首先对槽值示意散布与上下文示意散布上的相似性进行了度量,而后咱们借鉴了 F 值对于准确率及召回率的交融形式,对槽值示意散布相似性及槽值上下文示意散布相似性进行了交融,最初利用 Tanh 将所失去的值归一化到 0 - 1 之间,再用 1 减去所失去的值,为了合乎计算失去的值越大,可迁徙度越高的直观认知。下式是咱们所提出的槽间可迁徙度的计算形式:

$sim(p_v(s_a),p_v(s_b))$ 和 $sim(p_c(s_a),p_c(s_b))$ 别离示意槽 a 与槽 b 在槽值示意散布与上下文示意散布上的相似性,咱们采纳最大均值差别(MMD)来掂量散布之间的类似度。

咱们并没有提出新的模型,然而咱们提出的源槽抉择办法能够与所有的已知模型进行联合,在多个已有模型及数据集上的试验表明,咱们提出的办法能为指标工作槽填充模型带来一致性的性能晋升(ALL 所在列示意已有模型原始的性能,STM1 所在列示意用咱们的办法选出的数据训练的模型性能。)

03 Modeling Discriminative Representations for Out-of-Domain Detection with Supervised Contrastive Learning

| 论文下载
| 论文作者:曾致远(北京邮电大学),何可清,严渊蒙(北京邮电大学),刘子君(北京邮电大学),吴亚楠(北京邮电大学),徐红(北京邮电大学),江会星,徐蔚然(北京邮电大学)
| 论文类型:Main Conference Short Paper (Poster)

在理论的工作型对话零碎中,异样用意检测(Out-of-Domain Detection)是一个要害的环节,其负责辨认用户输出的异样查问,并给出拒识的回复。与传统的用意辨认工作相比,异样用意检测面临着语义空间稠密、标注数据匮乏的难题。现有的异样用意检测办法能够分为两类:一类是有监督的异样用意检测,是指训练过程中存在有监督的 OOD 用意数据,此类办法的劣势是检测成果较好,但毛病是依赖于大量有标注的 OOD 数据,这在理论中并不可行。另一类是无监督的异样用意检测,是指仅仅利用域内的用意数据去辨认域外用意样本,因为无奈利用有标注 OOD 样本的先验常识,无监督的异样用意检测办法面临着更大的挑战。因而,本文次要是钻研无监督的异样用意检测。

无监督异样用意检测的一个外围问题是,如何通过域内用意数据学习有区分度的语义表征,咱们心愿同一个用意类别下的样本表征相互靠近,同时不同用意类别下的样本相互远离。基于此,本文提出了一种基于监督比照学习的用意特色学习办法,通过最大化类间间隔和最小化类内方差来晋升特色的区分度。

具体来说,咱们应用一个 BiLSTM/BERT 的上下文编码器获取域内用意示意,而后针对用意示意应用了两种不同的指标函数:一种是传统的分类穿插熵损失,另一种是监督比照学习(Supervised Contrastive Learning)损失。监督比照学习是在比照学习的根底上,改良了原始的比照学习仅有一个 Positive Anchor 的毛病,应用同类样本相互作为正样本,不同类样本作为负样本,最大化正样本之间的相关性。同时,为了进步样本示意的多样性,咱们应用反抗攻打的办法来进行虚构数据加强(Adversarial Augmentation),通过给隐空间减少噪声的形式来达到相似字符替换、插入删除、回译等传统数据加强的成果。模型构造如下:

咱们在两个公开的数据集上验证模型的成果,试验结果表明咱们提出的办法能够无效的晋升无监督异样用意检测的性能,如下表所示。

04 Novel Slot Detection: A Benchmark for Discovering Unknown Slot Types in the Task-Oriented Dialogue System

| 论文下载
| 论文作者:吴亚楠(北京邮电大学),曾致远(北京邮电大学),何可清,徐红(北京邮电大学),严渊蒙(北京邮电大学),江会星,徐蔚然(北京邮电大学)
| 论文类型:Main Conference Long Paper(Oral)

槽填充(Slot Filling)是对话零碎中一个重要的模块,负责辨认用户输出中的要害信息。现有的槽填充模型只能辨认事后定义好的槽类型,然而理论利用里存在大量域外实体类型,这些未辨认的实体类型对于对话零碎的优化至关重要。

在本文中,咱们首次定义了新槽位辨认(Novel Slot Detection, NSD)工作,与传统槽位辨认工作不同的是,新槽位辨认工作试图基于已有的域内槽位标注数据去开掘发现实在对话数据里存在的新槽位,进而一直地欠缺和加强对话零碎的能力,如下图所示:

比照现有的 OOV 辨认工作和域外用意检测工作,本文提出的 NSD 工作具备显著的差异性:一方面,与 OOV 辨认工作相比,OOV 辨认的对象是训练集中未呈现过的新槽值,但这些槽值所属的实体类型是固定的,而 NSD 工作不仅要解决 OOV 的问题,更严厉的挑战是不足未知实体类型的先验常识,仅仅依赖域内槽位信息来推理域外实体信息;另一方面,和域外用意检测工作相比,域外用意检测仅需辨认句子级别的用意信息,而 NSD 工作则面临着域内实体和域外实体之间上下文的影响,以及非实体词对于新槽位的烦扰。整体上来看,本文提出的新槽位辨认(Novel Slot Detection, NSD)工作与传统的槽填充工作、OOV 辨认工作以及域外用意检测工作有很大的差别,并且面临着更多的挑战,同时也给对话零碎将来的倒退提供了一个值得思考和钻研的方向。

基于现有的槽填充公开数据集 ATIS 和 Snips,咱们构建了两个新槽位辨认数据集 ATIS-NSD 和 Snips-NSD。具体来说,咱们随机抽取训练集中局部的槽位类型作为域外类别,保留其余类型作为域内类别,针对于一个句子中同时呈现域外类别和域内类别的样例,咱们采纳了间接删除整个样本的策略,以防止 O 标签引入的 bias,保障域外实体的信息仅仅呈现在测试集中,更加的贴近理论场景。同时,咱们针对于 NSD 工作提出了一系列的基线模型,整体的框架如下图所示。模型蕴含两个阶段:

  • 训练阶段 :基于域内的槽标注数据,咱们训练一个 BERT-based 的序列标注模型(多分类或者是二分类),以获取实体表征。
  • 测试阶段 :首先应用训练的序列标注模型进行域内实体类型的预测,同时基于失去的实体表征,应用 MSP 或者 GDA 算法预测一个词是否属于 Novel Slot,也即域外类型,最初将两种输入后果进行合并失去最终的输入。

咱们应用实体辨认的 F1 作为评估指标,包含 Span-F1 和 Token-F1,二者的区别在于是否思考实体边界,试验后果如下:

咱们通过大量的试验和剖析来探讨新槽位辨认面临的挑战:1. 非实体词与新实体之间混同;2. 不充沛的上下文信息;3. 槽位之间的依赖关系;4. 凋谢槽(Open Vocabulary Slots)。

05 ConSERT: A Contrastive Framework for Self-Supervised Sentence Representation Transfer

| 论文下载
| 论文作者:严渊蒙,李如寐,王思睿,张富峥,武威,徐蔚然(北京邮电大学)
| 论文类型:Main Conference Long Paper(Poster)

句向量示意学习在自然语言解决(NLP)畛域占据重要位置,许多 NLP 工作的胜利离不开训练优质的句子示意向量。特地是在文本语义匹配(Semantic Textual Similarity)、文本向量检索(Dense Text Retrieval)等工作上,模型通过计算两个句子编码后的 embedding 在示意空间的类似度来掂量这两个句子语义上的相干水平,从而决定其匹配分数。只管基于 BERT 的模型在诸多 NLP 工作上获得了不错的性能(通过有监督的 Fine-Tune),但其本身导出的句向量(不通过 Fine-Tune,对所有词向量求均匀)品质较低,甚至比不上 Glove 的后果,因此难以反映出两个句子的语义类似度。

为解决 BERT 原生句子示意这种“坍缩”景象,本文提出了基于比照学习的句子示意迁徙办法—ConSERT,通过在指标畛域的无监督语料上 fine-tune,使模型生成的句子示意与上游工作的数据分布更加适配。同时,本文针对 NLP 工作提出了反抗攻打、打乱词序、裁剪、Dropout 四种不同的数据加强办法。在句子语义匹配(STS)工作的试验结果显示,等同设置下 ConSERT 相比此前的 SOTA(BERT-Flow)大幅晋升了 8%,并且在少样本场景下仍体现出较强的性能晋升。

在无监督试验中,咱们间接基于预训练的 BERT 在无标注的 STS 数据上进行 Fine-Tune。结果显示,咱们的办法在完全一致的设置下大幅度超过之前的 SOTA—BERT-Flow,达到了 8% 的绝对性能晋升。

06 From Paraphrasing to Semantic Parsing: Unsupervised Semantic Parsing via Synchronous Semantic Decoding

| 论文下载
| 论文作者:吴杉(中科院软件所),陈波(中科院软件所),辛春蕾(中科院软件所),韩先培(中科院软件所),孙乐(中科院软件所),张伟鹏,陈见耸,杨帆,蔡勋梁
| 论文类型:Main Conference Long Paper

语义解析(Semantic Parsing)是自然语言解决中的外围工作之一,它的指标是把自然语言转换为计算机语言,从而使得计算机真正了解自然语言。目前语义解析面临的一大挑战是标注数据的不足。神经网络办法大都非常依赖监督数据,而语义解析的数据标注十分费时费力。因而,如何在无监督的状况下学习语义解析模型成为十分重要的问题,同时也是有挑战性的问题,它的挑战在于,语义解析须要在无标注数据的状况下,同时逾越自然语言和语义示意间的语义鸿沟和构造鸿沟。之前的办法个别应用复述作为重排序或者重写办法以缩小语义上的鸿沟。与之前的办法不同,咱们提出了一种新的无监督的语义解析办法——同步语义解码(SSD),它能够联结使用复述和语法束缚解码同时解决语义鸿沟与构造鸿沟。

语义同步解码的核心思想是将语义解析转换为复述问题。咱们将句子复述成规范句式,同时解析出语义示意。其中,规范句式和逻辑表达式存在一一对应关系。为了保障生成无效的规范句式和语义示意,规范句式和语义示意在同步文法的限度中解码生成。

咱们通过复述模型在受限的同步文法上解码,利用文本生成模型对规范句式的打分,找到得分最高的规范句式(如上所述,空间同时受文法限度)。本文给出了两种不同的算法:Rule-Level Inference 以语法规定为搜寻单元和 Word-Level Inference 应用词作为搜寻单元。

咱们应用 GPT2.0 和 T5 在复述数据集上训练序列到序列的复述模型,之后只须要应用同步语义解码算法就能够实现语义解析工作。为了缩小格调偏差影响规范句式的生成,咱们提出了适应性预训练和句子重排序办法。

咱们在三个数据集上进行了试验:Overnight(λ-DCS)、GEO(FunQL)和 GEOGranno。数据笼罩不同的畛域和语义示意。试验结果表明,在不应用有监督语义解析数据的状况下,咱们的模型在各数据集上均能获得最好的成果。

07 Improving Document Representations by Generating Pseudo Query Embeddings for Dense Retrieval

| 论文下载
| 论文作者:唐弘胤,孙兴武,金蓓弘(中科院软件所),王金刚,张富峥,武威
| 论文类型:Main Conference Long Paper(Oral)

文档检索工作的指标是在海量的文本库中检索出和给定查问语义近似的文本。在理论场景利用中,文档文档库的数量会十分宏大,为了进步检索效率,检索工作个别会分成两个阶段,即初筛和精排阶段。在初筛阶段中,模型通过一些检索效率高的办法筛选出一部分候选文档,作为后续精排阶段的输出。在精排阶段,模型应用高精度排序办法来对候选文档进行排序,失去最终的检索后果。

随着预训练模型的倒退和利用,很多工作开始将查问和文档同时送入预训练进行编码,并输入匹配分数。然而,因为预训练模型的计算复杂度较高,对每个查问和文档都进行一次计算耗时较长,这种利用形式通常只能在精排阶段应用。为了放慢检索速率,一些工作开始应用预训练模型独自编码文档和查问,在查问前提前将文档库中的文档编码成向量模式,在查问阶段,仅需利用查问编码和文档编码进行类似度计算,缩小了工夫耗费。因为这种形式会将文档和查问编码为浓密向量模式,因而这种检索也称作“浓密检索”(Dense Retrival)。

一个根本的浓密检索办法会将文档和查问编码成为一个向量。然而因为文档蕴含的信息较多,容易造成信息失落。为了改良这一点,有些工作开始对查问和文档的向量示意进行改良,目前已有的改良办法大抵可分为三种,如下图所示:

咱们的工作从改良文档的编码动手来进步文档编码的语义示意能力。首先,咱们认为浓密检索的次要瓶颈在于编码时,文档编码器并不知道文档中的哪局部信息可能会被查问,在编码过程中,很可能造成不同的信息相互影响,造成信息被扭转或者失落。因而,咱们在编码文档的过程中,对每个文档构建了多个“伪查问向量”(Pseudo Query Embeddings),每个伪查问向量对应每个文档可能被发问的信息。

具体而言,咱们通过聚类算法,将 BERT 编码的 Token 向量进行聚类,对每个文档保留 Top- k 个聚类向量,这些向量蕴含了多个文档 Token 向量中的显著语义。另外,因为咱们对每个文档保留多个伪查问向量,在类似度计算时可能造成效率升高。咱们应用 Argmax 操作代替 Softmax,来进步类似度计算的效率。在多个大规模文档检索数据集的试验表明,咱们的办法既能够进步成果也进步了检索效率。

写在前面

以上这些论文是美团技术团队与各高校、科研机构通力合作,在事件抽取、实体辨认、用意辨认、新槽位发现、无监督句子示意、语义解析、文档检索等畛域所做的一些科研工作。论文是咱们在理论工作场景中遇到并解决具体问题的一种体现,心愿对大家可能有所帮忙或启发。

美团科研单干致力于搭建美团各部门与高校、科研机构、智库的单干桥梁和平台,依靠美团丰盛的业务场景、数据资源和实在的产业问题,凋谢翻新,汇聚向上的力量,围绕人工智能、大数据、物联网、无人驾驶、运筹优化、数字经济、公共事务等畛域,独特摸索前沿科技和产业焦点宏观问题,促成产学研单干交换和成绩转化,推动优秀人才造就。面向未来,咱们期待能与更多高校和科研院所的老师和同学们进行单干,欢送大家跟咱们分割(meituan.oi@meituan.com)。

浏览美团技术团队更多技术文章合集

前端 | 算法 | 后端 | 数据 | 平安 | 运维 | iOS | Android | 测试

| 在公众号菜单栏对话框回复【2020 年货】、【2019 年货】、【2018 年货】、【2017 年货】等关键词,可查看美团技术团队历年技术文章合集。

| 本文系美团技术团队出品,著作权归属美团。欢送出于分享和交换等非商业目标转载或应用本文内容,敬请注明“内容转载自美团技术团队”。本文未经许可,不得进行商业性转载或者应用。任何商用行为,请发送邮件至 tech@meituan.com 申请受权。

正文完
 0