关于算法:恒源云字节跳动的mRASP预训练模型真香

文章起源 | 一个专一 AI 行业的共享算力平台：恒源云

原文地址 | mRASP 预训练模型

原文作者 | 角灰

预计大佬们最近不是在考试，就是在放假，所以都不在社区发文章了
没方法，只能在茫茫帖子里深挖，哎嘿，这不就是巧了嘛，还真的有一篇漏网之鱼!

废话少说，正片开始：

最近在看机器翻译文献时，经常望卡兴叹，尤其是 facebook 是真的壕，训练 25 种语言的 mBart 就用 256 张卡训练了 20 天，更不用说是 mBart50。偶尔发现这篇字节的 mRASP(Random Aligned Substitution Pre-training)模型号称只须要 8 卡一周，几乎太香了！（还是跑不起啊 orz）论文为：Pre-training Multilingual Neural Machine Translation by Leveraging Alignment Information, 内容如下：

本文想构建一个对立的机器翻译模型，在提供任意语言对的状况下，能够疾速适应新语言。于是提出一种通用的多语言机器翻译预训练模型：mRASP(多语言随机对齐预训练)，在 32 种语言上进行预训练（双语数据），而后在 42 个翻译方向上进行微调，后果证实在低、中、高乃至零资源翻译上都有十分大的晋升。本文 首次验证多语言模型能晋升富资源语言的成果。

mRASP 能够使跨语言的同义词在嵌入空间上靠近，在低、中、高和零资源数据上证实了模型效性。通过剖析试验，发现对齐信息的确能不同语言语义上的鸿沟，并晋升性能。
将来工作是摸索更多词对齐的办法，并在大规模数据上预训练进一步晋升性能。

1. 本文认为预训练模型在 nmt 工作上的限度在于：
（1）预训练的 bert 不能间接微调到 nmt，除非用些简单的方法。
（2）预训练指标和上游工作（nmt）的训练指标有差别 ：如 mass、mbart 应用自编码器（降噪），和翻译工作不同，因而微调之后收益无限。
（3）现有的多语言预训练方法仅能晋升中、低资源翻译，而非任意语料对，尤其是 对富资源上成果没有显著晋升。（想想看人类学会多种语言后再学其余语言应该会很快）

2. 本文应用 随机对齐替换 使模型能弥合跨语言的鸿沟（见下），充分利用多语言常识，使得雷同语义的语言在表征空间靠近。mRASP 在极其短少平行语料（<10w），能达到 22bleu。

3. 提出了 异国翻译 的四种分类法：
（1）Exotic Pair：微调时的源语言和目标语言在预训练时各自独自呈现过，然而没有成对训练；
（2）Exotic Source：微调时的源语言没有在预训练时呈现，只预训练过目标语言；
（3）Exotic Target：微调时的目标语言没有在预训练时呈现，只预训练过源语言；
（4）Exotic Full：微调的两端语言在预训练中都没呈现过（巨难）；

4.奉献
（1）应用上亿对双语语料进行预训练， 而不像其余模型一样用大量单语预训练。本文认为预训练和微调有统一的指标有利于 nmt 晋升；
（2）提出 RAS，可能弥合跨语言的语义空间;
（3）在 42 个方向上获得微小晋升，在预训练中源、目标语言都没有的极其状况（Exotic Full）获得 14 的 bleu，在富语言 en-fr 上能进一步获得晋升 44.3bleu。

5.1. 构造

采纳 transformer-large，编码器解码器各 6 层，嵌入维度 1024，14 个 head，激活函数换为 GeLU, 并应用可学习的地位嵌入。

5.2. 随机对齐替换

不多说，先上图：

源句是：“I like singing and dancing”，指标句是：“J’adore chanter et danser <EOS>”
随机对齐替换就是无监督 MUSE 办法构建词典，而后随机替换掉源句种的“singing”和“dancing”，编码器输出变为：“I like chanter and danser”，解码器的生成指标不变。
咱们晓得一个词的词义是由其上下文决定的，因而把“chanter”放到和“singing”同样的语境下，他们在嵌入空间的间隔就拉近了，从而达到跨语言语义相近的目标。
换成公式就是如下：

L={L1,…Lm}为预训练的语言汇合，xi 代表语言 Li 中的某个句子。Dij 是平行语料，N 是平行语料数。C 是对齐函数，用于把源句中的单词替换为随机语言对应的词。在翻译方向为 (xj,xi) 时，指标函数使源语句 xj 在经随机替换后 C(xj)条件下，失去翻译后果 xi 的概率最大，即最小化化负对数似然。

为辨别不同翻译对，在源和指标语句之前简略增加语言标识：

5.4. 灵感起源：

最近的工作证实，跨语言模型预训练可能是一种更无效的办法来进行表征学习。然而
在预训练时，跨语言信息是从共享子词表取得的，有如下局限：
（1）共享词汇表十分系数，尤其是在不同的语言对上（状态上齐全不一样，如英汉）
（2）即便是雷同的子词，在不同语言中也可能示意不同意思。
（3）参数共享的办法不足明确的监督信号，来疏导跨语言中雷同意思词共享雷同的语义空间
因而本文为了弥合跨语言语义的鸿沟，提出了 RAS 随机对齐替换的办法。

5.5 PC32（PARALLEL CORPUS 32)

收集了 32 个英文为核心的语言，64 个翻译方向，统称为 PC32, 共蕴含 197m 平行语料

5.6 预训练细节

词汇表：
应用联结词汇表，用共享 bpe，32k 次合并操作。数据应用全副平行语料和额定的 1m 单语数据。并且为了均衡不同语言的词汇表大小，在最大语料量语言的根底上，对其余低资源语言进行过采样，使得每个 token 呈现数超过 20，最终子词词汇表大小是 64808。
参数
Adam 优化器，eps= 1e − 8, β2 = 0.98，warmup=4000 步，预训练 15w 次。
RAS 应用 MUSE 失去的 English- X 词典，取前 1000 个，用来随机替换源端的词，每个词有 30% 概率被替换。为解决一词多义，从候选词中随机选一个用来替换。
后果：

在富资源语言上成果显著：

在零资源语言上吊打间接训练。

mRASP 构建了一种通用机器翻译模型，能疾速适应各种语言，且训练速度快，能够看出多语言机器翻译是大势所趋。不过本文应用的也是共享词汇表，在跨语系如中英时词汇表会很大很稠密，应用相似通用词表嵌入的办法或者能在对不同语言词表解耦的同时，进一步拉近语义空间。

关于算法:恒源云字节跳动的mRASP预训练模型真香

1. 引言

2. 摘要：

3. 论断：

4. 介绍：

5. 模型：

5.3. 语言标识

6. 微调后果

7. 集体总结