关于microsoft:ACL-2022-NLP领域最新热门研究你一定不能错过

9次阅读

共计 4562 个字符,预计需要花费 12 分钟才能阅读完成。

编者按:作为自然语言解决畛域的国内顶级学术会议,ACL 每年都吸引了大量学者投稿和参会,往年的 ACL 大会已于 5 月 22 日至 5 月 27 日举办。值得注意的是,这也是 ACL 大会采纳 ACL Rolling Review 机制后的首次尝试。在此次会议中,微软亚洲研究院有多篇论文入选,本文精选了其中的 6 篇进行简要介绍,论文主题涵盖了:编码器解码器框架、自然语言生成、常识神经元、抽取式文本摘要、预训练语言模型、零样本神经机器翻译等。欢送感兴趣的读者浏览论文原文。

SpeechT5:语音和文本联结预训练的编码器解码器框架

论文链接:https://arxiv.org/abs/2110.07205

编码器 - 解码器框架广泛应用于自然语言解决和语音解决畛域,比方端到端的神经机器翻译模型和语音辨认模型。受 T5(Text-To-Text Transfer Transformer)在自然语言解决预训练模型上利用胜利的启发,本文提出了一个对立语音模态和文本模态的联结框架 SpeechT5,该框架摸索了基于自监督语音和文本示意学习的编码器 - 解码器预训练方法。

SpeechT5 蕴含一个共享的编码器 - 解码网络和对应模态的前解决 / 后处理网络,试图通过编码器 - 解码器框架将不同的语音解决工作转换成语音 / 文本到语音 / 文本的问题。利用大规模的未标注语音和文本数据,SpeechT5 对立了预训练学习两种模态的示意,以进步对语音和文本的建模能力。为了将文本和语音信息对齐到对立的语义空间中,本文提出了一种跨模态的矢量量化办法,该办法将语音和文本向量和潜在量化向量随机混合,作为编码器和解码器之间的语义接口。研究员们在多种不同的语音解决工作上评估了所提出的 SpeechT5 模型,包含主动语音辨认、语音合成、语音翻译、语音转换、语音加强和谈话人辨认,均显示出该模型的有效性和优越性。


图 1:(a)是 SpeechT5 模型构造,该模型架构蕴含一个编码器 - 解码器模块和六个模态特定的前解决 / 后处理网络。(b)是联结预训练方法,通过在不同模态之间共享潜在量化向量,联结预训练方法搭建起了语音和文本之间的桥梁。

利用比照前缀的可控自然语言生成

论文链接:https://arxiv.org/abs/2202.13257

为了领导大型预训练语言模型的生成,之前的工作次要集中在间接微调语言模型或利用属性分类模型来疏导生成。Prefix-tuning (Li and Liang, 2021) 提出通过训练前缀(一个小规模的间断向量)来代替在上游生成工作上进行的微调。受此启发,研究员们在本文中提出了一种用于管制 GPT2 生成的新型轻量级框架。该框架利用一组前缀来疏导自然语言文本的生成,每个前缀都与一个被管制的属性绝对应。

与应用属性分类模型或生成判断器相比,应用前缀实现可控性具备以下长处:首先,它引入了更少的附加参数(在试验中约为 GPT2 参数的 0.2%-2%)。其次,应用前缀能够使推理速度与原始 GPT2 模型相媲美。与 Prefix-tuning 独立训练每个前缀的形式不同,微软亚洲研究院的研究员们认为属性之间有互相关系(比方侧面情感和负面情感是互相对抗的关系),并且在训练过程中学习这种关系将有助于进步前缀的管制成果。因而,在该框架中,研究员们思考了前缀之间的关系并同时训练了多个前缀。本文提出了一种新的有监督训练方法和一种新的无监督训练方法来实现单属性管制,而这两种办法的联合则能够实现多属性管制。单属性管制工作(情绪管制、去毒化、主题管制)的试验结果表明,研究员们提出的办法能够在放弃较高语言品质的同时疏导生成文本具备指标属性。而多属性管制工作(情感和主题管制)的试验结果表明,用该办法训练的前缀能够同时胜利地管制这两个方面的属性。

图 2: Prefix-tuning(上)和本文办法(下)在情感管制工作上的比拟。实线箭头示意训练过程,虚线箭头示意生成过程。在本文提出的框架中,训练能够是有监督的、半监督的、或者无监督的。

预训练 Transformers 中的常识神经元

论文链接:https://arxiv.org/abs/2104.08696

近年来,大规模预训练语言模型被证实领有较好的回顾预训练语料中所裸露的常识的能力。但现有的常识探针工作,如 LAMA,仅仅关注评估常识预测的整体准确率。本文试图对预训练语言模型进行更深刻的钻研,通过引入常识神经元的概念,来探索事实型常识是如何在模型中进行存储的。

首先,如图 3 所示,研究员们把 Transformer 中的 FFN 模块类比为键 - 值记忆模块。具体来说,FFN 中的第一个线性层能够被看做一系列键,而第二个线性层能够被看做一系列对应的值。一个隐向量先跟第一个线性层中的键通过内积来计算出一系列两头神经元的激活值,而后用这个激活值作为权重,来对第二个线性层中的值进行加权求和。研究员们假如常识神经元就存在于这些两头神经元之中。


图 3:研究员们把 FFN 模块类比为键 - 值记忆模块,而常识神经元存在于其中
在以上类比和假如的根底之上,研究员们提出了一套检测常识神经元的办法。基于常识填空的工作,研究员们先通过常识归因算法来找到对最终常识表白最重要的神经元,而后再通过一个常识神经元精炼的步骤,进一步提取出跟常识表白最为相干的神经元。

研究员们通过试验验证了常识神经元跟常识表白之间的关系:正向的,研究员们验证了常识神经元的激活值能够间接影响事实型常识的表白;反向的,研究员们验证了常识神经元更容易被表白常识的文本所激活。此外,基于常识神经元,本文还提出了两个初步的常识编辑办法,通过批改常识神经元对应的 FFN 中的参数,能够肯定水平上对预训练模型中的一条常识进行更新,也能够从模型中删除一整类常识。

基于神经标签搜寻的零样本多语言抽取式摘要

论文链接:https://arxiv.org/abs/2204.13512
抽取式文本摘要目前在英文上曾经获得了很好的性能,这次要得益于大规模预训练语言模型和丰盛的标注语料。然而对于其余小语种语言,目前很难取得大规模的标注数据。因而,本文的钻研内容是基于 Zero-Shot 的多语言抽取式文本摘要,具体方法是应用在英文上预训练好的抽取式文本摘要模型来在其余低资源语言上间接进行摘要抽取。针对多语言 Zero-Shot 中的单语言标签偏差问题,本文提出了多语言标签(Multilingual Label)标注算法和神经标签搜寻模型 NLSSum。

多语言标签是通过机器翻译和双语词典替换等无监督的形式所结构的标签,如图 4 所示,其中蕴含 a、b、c、d 四组标签汇合,它们别离通过不同语言间的翻译和词替换来结构。通过这种形式结构的标签可能在标签中融入更多跨语言信息。

图 4:多语言抽取式摘要标签构建。a 为在英文上取得的标签汇合,b、c、d 为对英文训练集进行机器翻译(MT)和双语词典替换(WR)而取得的标签汇合。

NLSSum 通过神经搜寻的形式来对多语言标签中不同标签汇合赋予不同的权重,并最终失去每个句子加权均匀的标签。本文就是应用这种最终的标签在英文数据集上训练抽取式摘要模型(见图 5)。其中,每个句子的标签得分综合思考了句子级别权重预测器 T_α 以及标签汇合级别权重预测器 T_β 的后果。和单语言标签相比,多语言标签中存在更多的跨语言语义和语法信息,因而 NLSSum 模型在数据集 MLSUM 的所有语言数据集上均大幅度超过了基线模型的分数,甚至超过了未应用预训练模型的有监督办法(Pointer-Generator)。

图 5:多语言神经标签搜寻摘要模型

本文中,研究员们还通过可视化剖析进一步钻研了不同语言间重要信息的散布地位,能够发现英文语言中重要信息的散布较为靠前,其余语言中重要信息的散布绝对比拟扩散,而这也是本文多语言标签可能晋升模型性能的重要起因。

NoisyTune: 加一点噪声就能帮你更好地微调预训练语言模型

论文链接:https://arxiv.org/abs/2202.12024

预训练语言模型是近年来自然语言解决畛域备受关注的热门技术之一。在上游工作中如何无效地微调预训练语言模型是其胜利与否的要害。目前已有的许多办法间接利用上游工作中的数据来微调预训练语言模型,如图 6(a)所示。然而,研究员们认为语言模型也存在过拟合预训练任务和数据的危险。因为预训练任务与上游工作通常存在鸿沟,已有的微调办法较难疾速地从预训练空间迁徙到上游工作空间,特地是当上游工作的训练数据较为稀少时。针对这一问题,微软亚洲研究院的研究员们提出了一种简略而无效的解决方案,即在微调之前增加大量噪声来扰动预训练语言模型,名为 NoisyTune。其范式如图 6(b)所示。

图 6:规范语言模型微调的形式与本文所提出形式的比照
研究员们认为,对 PLM 增加大量噪声能够帮忙模型“摸索”更多潜在的特色空间,从而加重对预训练任务和数据的过拟合问题。为了更好地保留语言模型的常识,研究员们提出了一种依据参数矩阵的方差增加平均噪声的办法,这种办法可能依据不同类型参数的特点增加适合强度的噪声,其公式如下。其中超参数 λ 管制了增加噪声的强度。

研究员们在英文的 GLUE 数据集与多语言的 XTREME 数据集上发展了试验。结果显示,NoisyTune 能够无效为不同类型的语言模型带来晋升,特地是对规模绝对较小的数据集晋升幅度更大。

此外,研究员们还进一步探索了增加不同噪声对于 NoisyTune 的影响,后果发现退出全局对立散布的噪声往往对模型性能有肯定侵害,而依据参数矩阵的偏离水平增加成果更佳。另外,可能因为高斯噪声不足硬性范畴束缚,增加均匀分布噪声的模型成果比高斯噪声更好。

图 7:不同噪声类型对 NoisyTune 的影响

零样本神经机器翻译的跨语言迁徙


论文链接:https://arxiv.org/abs/2110.08547

本文证实了在零样本神经网络机器翻译中,适合的多语言预训练和多语言微调办法对进步跨语言迁徙的能力都是至关重要的。依据这个动机,研究员们提出了 SixT+,一个弱小的多语言神经机器翻译模型,该模型只应用了六种语言的平行语料进行训练,却可能同时反对 100 种语言的翻译。

SixT+ 应用 XLM-R large 初始化 解码器嵌入和整个编码器,而后应用简略的两阶段训练策略训练 编码器和解码器。SixT+ 在不少翻译方向上都获得了很好的后果,性能显著优于 CRISS 和 m2m-100 这两个弱小的多语言神经机器翻译零碎,其均匀增长别离为 7.2 和 5.0 BLEU。

此外,SixT+ 也是一个很好的预训练模型,能够进一步微调以适应其余无监督工作。试验后果证实,在斯洛文尼亚语和尼泊尔语这两个语言的翻译上,SixT+ 比最先进的无监督机器翻译模型的均匀 BLEU 高出 1.2 以上。SixT+ 同样能够利用于零样本跨语言摘要,它的均匀性能显著高于 mBART-ft,均匀能够进步 12.3 ROUGE-L。研究员们还对 SixT+ 进行了详细分析,以理解 SixT+ 的要害组成部分,包含多语言平行数据的必要性,地位拆散编码器及其编码器的跨语言迁徙能力。

图 8:研究员们提出的两阶段训练框架,利用多语言预训练模型 XLM-R 建设跨语言生成模型。图中蓝色的冰块示意用 XLM-R 初始化并解冻,而红色的火焰则代表随机初始化或从第一阶段开始初始化。


长按辨认二维码
关注微软中国 MSDN

正文完
 0