文章起源 | 一个专一 AI 行业的共享算力平台:恒源云
原文地址 | mRASP 预训练模型
原文作者 | 角灰
预计大佬们最近不是在考试,就是在放假,所以都不在社区发文章了
没方法,只能在茫茫帖子里深挖,哎嘿,这不就是巧了嘛,还真的有一篇漏网之鱼!
废话少说,正片开始:
1. 引言
最近在看机器翻译文献时,经常望卡兴叹,尤其是 facebook 是真的壕,训练 25 种语言的 mBart 就用 256 张卡训练了 20 天,更不用说是 mBart50。偶尔发现这篇字节的 mRASP(Random Aligned Substitution Pre-training)模型号称只须要 8 卡一周,几乎太香了!(还是跑不起啊 orz)论文为:Pre-training Multilingual Neural Machine Translation by Leveraging Alignment Information, 内容如下:
2. 摘要:
本文想构建一个对立的机器翻译模型,在提供任意语言对的状况下,能够疾速适应新语言。于是提出一种通用的多语言机器翻译预训练模型:mRASP(多语言随机对齐预训练),在 32 种语言上进行预训练(双语数据),而后在 42 个翻译方向上进行微调,后果证实在低、中、高乃至零资源翻译上都有十分大的晋升。本文 首次验证多语言模型能晋升富资源语言的成果。
3. 论断:
mRASP 能够使跨语言的同义词在嵌入空间上靠近,在低、中、高和零资源数据上证实了模型效性。通过剖析试验,发现对齐信息的确能不同语言语义上的鸿沟,并晋升性能。
将来工作是摸索更多词对齐的办法,并在大规模数据上预训练进一步晋升性能。
4. 介绍:
1. 本文认为预训练模型在 nmt 工作上的 限度 在于:
(1)预训练的 bert 不能间接微调到 nmt,除非用些简单的方法。
(2)预训练指标和上游工作(nmt)的训练指标有差别 :如 mass、mbart 应用自编码器(降噪),和翻译工作不同,因而微调之后收益无限。
(3)现有的多语言预训练方法仅能晋升中、低资源翻译,而非任意语料对,尤其是 对富资源上成果没有显著晋升。(想想看人类学会多种语言后再学其余语言应该会很快)
2. 本文应用 随机对齐替换 使模型能弥合跨语言的鸿沟(见下),充分利用多语言常识,使得雷同语义的语言在表征空间靠近。mRASP 在极其短少平行语料(<10w),能达到 22bleu。
3. 提出了 异国翻译 的四种分类法:
(1)Exotic Pair:微调时的源语言和目标语言在预训练时各自独自呈现过,然而没有成对训练;
(2)Exotic Source:微调时的源语言没有在预训练时呈现,只预训练过目标语言;
(3)Exotic Target:微调时的目标语言没有在预训练时呈现,只预训练过源语言;
(4)Exotic Full:微调的两端语言在预训练中都没呈现过(巨难);
4.奉献
(1)应用上亿对双语语料进行预训练, 而不像其余模型一样用大量单语预训练。本文认为预训练和微调有统一的指标有利于 nmt 晋升;
(2)提出 RAS,可能弥合跨语言的语义空间;
(3)在 42 个方向上获得微小晋升,在预训练中源、目标语言都没有的极其状况(Exotic Full)获得 14 的 bleu,在富语言 en-fr 上能进一步获得晋升 44.3bleu。
5. 模型:
5.1. 构造
采纳 transformer-large,编码器解码器各 6 层,嵌入维度 1024,14 个 head,激活函数换为 GeLU, 并应用可学习的地位嵌入。
5.2. 随机对齐替换
不多说,先上图:
源句是:“I like singing and dancing”,指标句是:“J’adore chanter et danser <EOS>”
随机对齐替换就是无监督 MUSE 办法构建词典,而后随机替换掉源句种的“singing”和“dancing”,编码器输出变为:“I like chanter and danser”,解码器的生成指标不变。
咱们晓得一个词的词义是由其上下文决定的,因而把“chanter”放到和“singing”同样的语境下,他们在嵌入空间的间隔就拉近了,从而达到跨语言语义相近的目标。
换成公式就是如下:
L={L1,…Lm}为预训练的语言汇合,xi 代表语言 Li 中的某个句子。Dij 是平行语料,N 是平行语料数。C 是对齐函数,用于把源句中的单词替换为随机语言对应的词。在翻译方向为 (xj,xi) 时,指标函数使源语句 xj 在经随机替换后 C(xj)条件下,失去翻译后果 xi 的概率最大,即最小化化负对数似然。
5.3. 语言标识
为辨别不同翻译对,在源和指标语句之前简略增加语言标识:
5.4. 灵感起源:
最近的工作证实,跨语言模型预训练可能是一种更无效的办法来进行表征学习。然而
在预训练时,跨语言信息是从共享子词表取得的,有如下局限:
(1)共享词汇表十分系数,尤其是在不同的语言对上(状态上齐全不一样,如英汉)
(2)即便是雷同的子词,在不同语言中也可能示意不同意思。
(3)参数共享的办法不足明确的监督信号,来疏导跨语言中雷同意思词共享雷同的语义空间
因而本文为了弥合跨语言语义的鸿沟,提出了 RAS 随机对齐替换的办法。
5.5 PC32(PARALLEL CORPUS 32)
收集了 32 个英文为核心的语言,64 个翻译方向,统称为 PC32, 共蕴含 197m 平行语料
5.6 预训练细节
词汇表:
应用联结词汇表,用共享 bpe,32k 次合并操作。数据应用全副平行语料和额定的 1m 单语数据。并且为了均衡不同语言的词汇表大小,在最大语料量语言的根底上,对其余低资源语言进行过采样,使得每个 token 呈现数超过 20,最终子词词汇表大小是 64808。
参数
Adam 优化器,eps= 1e − 8, β2 = 0.98,warmup=4000 步,预训练 15w 次。
RAS 应用 MUSE 失去的 English- X 词典,取前 1000 个,用来随机替换源端的词,每个词有 30% 概率被替换。为解决一词多义,从候选词中随机选一个用来替换。
后果:
6. 微调后果
在富资源语言上成果显著:
在零资源语言上吊打间接训练。
7. 集体总结
mRASP 构建了一种通用机器翻译模型,能疾速适应各种语言,且训练速度快,能够看出多语言机器翻译是大势所趋。不过本文应用的也是共享词汇表,在跨语系如中英时词汇表会很大很稠密,应用相似通用词表嵌入的办法或者能在对不同语言词表解耦的同时,进一步拉近语义空间。