关于nlp:微软亚洲研究院NLP领域最新研究一览

10次阅读

共计 6148 个字符,预计需要花费 16 分钟才能阅读完成。

编者按:EMNLP(Conference on Empirical Methods in Natural Language Processing)是计算语言学和自然语言解决畛域的顶级国内学术会议。往年的 EMNLP 大会于 11 月 7 日 -11 日正式在线上召开。在本届大会中,微软亚洲研究院有多篇论文入选,明天咱们精选了其中的 6 篇来为大家进行简要介绍。欢送感兴趣的读者浏览论文原文,一起理解自然语言解决畛域的前沿停顿!

CAST: 通过对形象语法树的层次化切分与重建来加强代码摘要的生成

论文链接:
https://arxiv.org/abs/2108.12987

代码链接:
https://github.com/DeepSoftwa…

代码摘要生成工作旨在了解实在的代码片段,并主动生成天然语句,进而实现形容这段代码的性能。因为摘要可能精简地形容代码的性能、可读性强,所以良好的摘要能够帮忙开发者更便捷地了解、重用和保护代码,大大提高生产效率。然而,事实中的摘要却存在着缺失、谬误和未及时更新等问题,而且人为标注代码的摘要须要具备肯定的专业知识背景,整个过程耗时耗力。因而,主动为代码生成摘要尤为重要。

近年来,很多钻研人员应用各种技术建模富含语法和构造信息的形象语法树(AST),以此来更好地生成代码摘要。然而,因为程序的复杂性,形象语法树个别又大又深、难以建模。现有办法也存在着树的构造被毁坏、训练代价大、信息失落等诸多限度。为此,微软亚洲研究院的研究员们提出了一种 层次化切分和重组 AST 的办法——CAST。其外围在于将 AST 层次化地切分成适合粒度的子树,使得每个子树蕴含绝对残缺的语义;独立建模子树后再依照切分前子树的绝对地位,重新聚合子树的表征。这样能够使 AST 的构造更容易被建模,代码的语义可能更加残缺地被构建,生成的摘要体现的语义也更加全面。


(图 1:代码及其形象语法树(AST),切分的子树以及构造树的示意图)

CAST 模型抉择了罕用的序列到序列的架构,次要蕴含三个模块:AST 的编码器、代码编码器和摘要解码器。AST 的编码器用来建模代码的语义和构造信息;代码编码器用来建模变量名层面的词汇和语义信息;解码器则联合两个编码器失去的代码表征以及复制机制来生成代码摘要。


(图 2:CAST 模型的架构示意图)

研究员们在两个公开的数据集、四种掂量指标下进行了自动化测试,并且发展了人工测评试验。大量试验后果证实了该办法的有效性。


(表 1:在两个数据集、四种自动化指标下的试验后果)


(表 2:人工评估下的试验后果,括号外为均分(满分 4 分),括号内为方差)

嵌入语言联盟(Representation Sprachbund)的发现及其对多语言预训练的作用

论文链接:
https://arxiv.org/abs/2109.00271

作为古代自然语言解决(NLP)中一个重要技术分支,多语言 NLP 旨在使现有 NLP 技术解脱语言品种的限度,可能应用一个模型同时解决上百种语言的工作。目前多语言预训练模型的外围挑战在于:现存的许多数据集都仅有英语训练数据,而其余泛滥应用人数较少的低资源语言上仅有测试数据。如果应用英语数据对多语言模型进行微调,在其余语言上测试,所失去的后果和英语上的构造存在较大的差距。面对上述挑战,微软亚洲研究院的研究员们从语言学实践中的 Sprachbund 受到启发,设计出了如下图所示的多语言 NLP 新范式。


(图 3:嵌入语言联盟发现与预训练的流程)

Sprachbund 是一个德语语言学术语,示意没有亲属关系的语言,因为长期共处于一个地区而在语言构造上产生独特区域特色的景象。研究员们认为预训练时语言之间较大的差异性是导致跨语言模型体现较差的起因。因而,研究员们提出了 Representation Sprachbund 的概念,用来指一系列具备类似嵌入示意的语言。研究员们通过跨语言预训练模型提取出语言的嵌入示意,将语言示意进行聚类为多个 Representation Sprachbund,针对每一类嵌入示意类似的 Representation Sprachbund 语言进行预训练。在 XGLUE 和 XTREME 等多个跨语言基准工作上发展的试验表明,本文的办法可能在基线模型根底上获得显著晋升。


(表 3:在跨语言基准工作上的后果)

本文另一个重要的奉献是摸索了预训练语言模型失去的语言嵌入示意散布与语言学实践的关系,包含 Language Family, Sprachbund 和语言语法。


(图 4:语言嵌入示意的可视化剖析)

本文通过可视化剖析揭示了语言嵌入示意丰盛的语言学性质。研究员们心愿将来进一步摸索基于深度学习的多语言 NLP 与经典语言学实践的分割。

Efficient-FedRec:高效的新闻举荐隐衷爱护框架

论文链接:
https://arxiv.org/abs/2109.05446

现在,隐衷爱护对于 AI 零碎变得日益重要。因为举荐零碎(如新闻举荐)须要应用大量用户的行为数据进行模型训练和推理,因而满足用户数据隐衷爱护的需要也非常迫切。联邦学习是一种能够实现隐衷爱护的模型训练框架,可能在用户数据不来到本地的前提下,联结大量用户进行协同模型训练。

FedRec[1] 就是一种基于联邦学习的隐衷爱护新闻举荐办法,如图 5 所示。该办法会在每个用户端上基于用户本地存储的行为数据,来训练失去本地新闻举荐模型的梯度,而后再将其上传到服务器端进行聚合,并更新服务器端上的全局新闻举荐模型,进而再分发给用户端。因为举荐零碎采纳的模型越来越大,并且该办法的模型训练次要在用户端上进行,因而会给用户端(如手机)带来微小的计算累赘。同时,用户端和服务器端还须要对所有模型的参数进行多轮交互,这也使得通信的开销十分微小。


(图 5:FedRec[1]框架)

为了解决这一问题,微软亚洲研究院的研究员们提出了 高效的新闻举荐隐衷爱护框架 Efficient-FedRec。与联邦学习在用户端上训练全副模型的做法不同,研究员们提出将计算工作进行划分和平衡,让用户端和服务器端同时参加到模型训练中来,如图 6 所示。


(图 6:Efficient-FedRec 框架)

具体来说,研究员们将新闻举荐的模型拆分为用户模型和新闻模型。用户模型的指标是从用户行为中建模用户趣味,个别模型较为轻量,然而波及隐衷敏感的用户行为数据。新闻模型的指标则是从新闻文本中建模新闻的语义内容,模型通常比拟大,然而解决的新闻文本数据在隐衷上不敏感。所以,研究员们将轻量级的、隐衷敏感的用户模型放在用户端上训练;将重量级的、隐衷不敏感的新闻模型放在服务器端上训练,从而可能显著升高用户端的计算开销以及用户端和服务器端之间的通信开销。

Efficient-FedRec 的每一轮模型训练由以下 4 步组成:

(1)服务器端随机选取一部分用户,并向他们发送全局用户模型和他们交互过的新闻示意。

(2)每个用户端应用本人本地的隐衷数据进行训练,计算出用户模型和新闻示意的梯度。

(3)服务器端聚合用户模型和新闻示意的梯度。

(4)服务器端应用聚合后的用户模型梯度来间接更新用户模型,应用新闻示意梯度计算新闻模型的梯度来更新新闻模型。更新后的新闻模型将被用于计算出新的新闻示意。

此外,为了不裸露用户交互历史,研究员们应用了 Secure Aggregation 来计算不同用户间交互新闻的并集。用户通过申请并集中的新闻示意来爱护本人的交互历史记录。同时,Secure Aggregation 也被用于聚合不同用户的梯度来爱护用户本地梯度中的隐衷信息。

研究员们基于 MIND 和 Adressa 数据集进行了试验。表 4 中的结果显示,Efficient-FedRec 可能获得与依赖中心化数据存储的新闻举荐办法类似的举荐性能


(表 4:不同办法在 MIND 和 Adressa 数据集上的性能比拟)

图 7 进一步比拟了 Efficient-FedRec 和其余隐衷爱护新闻举荐办法的计算和通信开销。试验结果表明 Efficient-FedRec 能够无效地减小用户端的计算和通信累赘


(图 7:不同隐衷爱护办法在 MIND 数据集上的计算和通信开销比拟)

利用弱解码器辅助检索工作预训练

论文链接:
https://arxiv.org/abs/2102.09206

近年来,在搜寻、举荐以及问答等多种场景中,Dense retrieval 技术受到了越来越多的关注。在这些场景的第一阶段检索中,Dense retrieval 模型通常采纳双塔构造,利用编码器模型首先将用户侧 (查问、浏览历史或问题) 和语料库侧 (文档或文章) 别离编码为学习示意空间中的独立向量,而后采纳简略的类似度计算(例如点积或余弦类似度)来进行高效检索。但以往的钻研表明,罕用的预训练语言模型在 Dense retrieval 场景中,对文本的编码并不是非常无效,尤其是当文本序列大多长于 128 个词时。

对此,本文提出了 一种生成高质量文本示意的预训练语言模型 SEED-Encoder,用于大规模密集向量检索的场景。SEED-Encoder 采纳自编码器构造,利用一个编码器生成文本示意,以及一个解码器基于该文本示意重构原始文本,从而促使编码器生成更有信息量的文本示意。

然而实践剖析和试验阐明,因为弱小的解码器本身可能学习到肯定的语言范式,因而 解码成果越好并不一定意味着生成的示意越好。具体来说,将解码器的重构文本的损失冀望拆解为解码器预测的词散布与实在散布之间的 KL 散度,和预测词与之前已知的文本内容的条件熵之后,微软亚洲研究院的研究员们发现当解码器的拟合能力足够弱小或者以后词与之前可见的文本内容依赖性足够强时,即便编码器生成的文本示意没有任何信息,解码器的解码损失也能够很小。


因而本文提出 限度解码器的参数以及注意力可见范畴,结构弱解码器来解决这个问题。在预训练过程中,本文的训练指标除了 MLM loss 之外还有基于编码器生成的文本示意的弱解码器重构损失。因为弱编码器参数量较少,不会在预训练过程中减少过多开销,同时在上游工作中只须要保留编码器,因而在上游工作上微调的开销与其余预训练语言模型统一,如 BERT。


(图 8:模型框架)

大量试验表明,相比于其余预训练语言模型,SEED-Encoder 的成果有显著的晋升;同时也缩小了在上游工作上微调所须要的训练轮次,证实了本文所提出办法的有效性。


(表 5:试验成果)


(图 9:BERT 与 Seed-Encoder 收敛过程比照)

mT6:利用翻译句对的多语言预训练文本到文本 Transformer

论文链接:
https://arxiv.org/abs/2104.08…

多语言文本到文本 Transformer(mT5)模型在多语言自然语言了解评测基准的各项任务上都体现优异。它继承了 T5 的特点,将自然语言解决工作对立建模为文本到文本问题,又展示了弱小的跨语言迁徙能力,晋升了多语言自然语言解决工作上的成果。然而,如何利用翻译句对来晋升 mT5 仍须要进一步钻研。

在本篇论文中,微软亚洲研究院的研究员们提出 mT6,即利用翻译句对的多语言预训练文本到文本 Transformer。研究员们提出了三种文本到文本的跨语言预训练任务:机器翻译(Machine Translation, MT)、翻译对完形填空(Translation Pair Span Corruption, TPSC)、翻译完型填空(Translation Span Corruption, TSC)。不同于传统的完型填空工作,在 TPSC 和 TSC 工作中,模型学习会依据双语上下文进行完形填空,以此激励模型学习通用跨语言文本示意。


(图 10:该论文提出的三种跨语言预训练任务)

相较于 mT5,mT6 在训练指标上也有所不同。研究员们提出了 局部非自回归解码(如图 11 所示),将原指标文本宰割为若干组,在解码过程中要预测的单词依赖于输出文本和仅在同组的指标文本,而不是全副已生成的指标文本。


(图 11:局部非自回归解码)

mT6 在 XTREME 多语言了解评估基准的 6 项工作上均超过 mT5,并且联结应用 SC+TSC 和局部非自回归解码失去了最好的成果,如表 6 所示。


(表 6:mT6 在 XTREME 多语言了解评估基准上的体现)

如表 7 所示,对于 Gigaword 多语言文本摘要工作,mT6 在 3 个语言上超过了 mT5,并且在低资源的场景下展示了更好的成果


(表 7:mT6 在 Gigaword 多语言文本摘要工作上的体现)

利用多语言预训练编码器实现零资源跨语言机器翻译


论文链接:

https://arxiv.org/abs/2104.08757

多语言预训练编码器(MPE)如 XLM-R 在诸多自然语言了解工作上体现出了杰出的零资源跨语言迁徙能力。然而,如何利用 MPE 实现机器翻译工作上的零资源跨语言迁徙仍须要进一步钻研。在本文中,微软亚洲研究院的研究员们摸索并提出了 晋升利用 MPE 的机器翻译模型的零资源跨语言迁徙能力的办法。仅仅利用一个多语言预训练编码器和一种语言对的平行语料,就能够使训练后的机器翻译模型反对 100 种源语言的翻译。大量试验表明,如果采纳适合的微调训练的形式,利用 XLM-R 训练的翻译模型要比利用 mBART 具备更好的零资源跨语言迁徙能力。


(图 12:机器翻译工作上的零资源跨语言迁徙。)

图中 NMT 模型只须要一个训练好的 MPE 和英德双语语料,训练后便可将 100 种源语言翻译到英语,而无需利用 Fi, Hi, Zh 等语言的单语或双语信息。

通过比照利用 MPE 训练 NMT 模型的不同计划,研究员们提出利用 MPE 初始化 NMT 模型的编码器和解码器 embedding 层,并在训练中放弃固定;同时从零开始训练解码器。为了进一步晋升模型的跨语言迁徙能力,研究员们采纳了两阶段的训练策略,并引入了加强模型容量的解码器和地位解耦型编码器。训练失去的模型编码器所产生的基于上下文的示意,含有更少的语言和地位相干的信息,从而取得了更强的跨语言迁徙能力。

如表 8 所示,在利用多语言预训练模型 XLM-R 的诸多办法中,SixT 获得了最好的零资源跨语言迁徙能力,在与训练数据的源语言间隔较远的语言上也有较大的晋升


(表 8:不同办法在机器翻译工作上的零资源跨语言迁徙能力比拟(表中为 BLEU 分数))

SixT 比微调 mBART 的办法具备更强的跨语言迁徙能力。CRISS 和 m2m-100 别离是以后先进的无监督和监督的多到多(many-to-many)机器翻译模型。在更少的训练数据下,SixT 在表中的多种语言到英语的翻译测试集上获得了与 CRISS 和 m2m-100 更好或相当的性能,如表 9 所示。


(表 9:本文提出的办法与其余多语言机器翻译模型的比拟)

如表 10 所示,一般来说,SixT 在与训练数据集源语言相似的语言上的迁徙能力更强 。在本文中,研究员们还提出利用 SixT 的零资源跨语言迁徙能力实现低资源机器翻译的 两个倡议:一是更大的训练数据集迁徙成果更好;二是尽量在与迁徙的目标语言更相近的训练数据上训练


(表 10:模型训练数据集语言对与跨语言迁徙能力的关系)

[1] Privacy-Preserving News Recommendation Model Learning, EMNLP 2020 Findings

(转载自微软亚洲研究院自然语言计算组)


欢送关注微软中国 MSDN 订阅号,获取更多最新公布!

正文完
 0