关于字节跳动:7天8卡训练32种语言字节跳动推出多语言预训练新范式mRASP

29次阅读

共计 7447 个字符,预计需要花费 19 分钟才能阅读完成。

字节跳动发表在 EMNLP 2020 会议上的一项钻研提出多语言翻译新范式——mRASP。

1920 年大哲学家罗素学生来中国各地拜访,陪同翻译的是过后清华大学语言学家赵元任。赵元任极富语言蠢才,过后曾经会说保定话、常州话、福州话、南京话等多中央言和英语。他在陪同罗素从上海到长沙的船上跟同船的经济学家杨瑞六学长沙话,船到长沙靠岸,赵元任曾经能把罗素的演讲和俚语翻译成长沙话了。神经网络翻译是否成为「机器翻译界的赵元任」呢?即发明一个对立的具备多种语言能力的模型,在遇到新的语言时,长期大量学习即可达到很流畅的语言程度。


赵元任(后排左二)与罗素(前排右一)

本文将给大家介绍 EMNLP 2020 新鲜出炉的多语言翻译新范式 multilingual Random Aligned Substitution Pre-training (mRASP) [1],其核心思想是打造「机器翻译界的赵元任模型」,通过预训练技术再在具体语种上微调即可达到当先的翻译成果,其在 32 个语种上预训练出的对立模型在 47 个翻译测试集上获得了全面显著地晋升。

mRASP 不同于以往的翻译模式,建立了翻译的预训练和微调的胜利门路。

以 BERT 为代表的预训练范式简直横扫了所有的文本了解工作,成为各种 NLP 工作的基石。然而,在文本生成尤其是机器翻译畛域,尽管预训练模型也涌现出不少新算法,然而获得的成果仍有肯定局限性,在资源丰盛水平各异的场景和多语言扩大上仍然面临着挑战。mRASP 解决的外围问题是:是否预训练出一个对立的翻译模型,在任何语对例如中文到印尼语中都能通过大量微调来达到好的翻译成果?

mRASP 次要针对机器翻译工作而设计,它有三个利用劣势:

  • 突破了资源场景的限度,不管平行双语资源高下都能有所晋升。在资源丰盛的语言,比方规范英法翻译工作上曾经有 4000 万平行语句训练状况下,应用 mRASP 仍然能取得显著晋升,达到了 44.3 的 BLEU 值;在低资源语言中,mRASP 的体现令人惊喜,极其状况下,只须要一万句训练数据,通过 10 分钟微调训练,就能失去一个还不错的翻译零碎。
  • 突破了语种数量的限度。任何语言的翻译,无论是孟加拉语到古吉拉特语还是印地语到菲利宾语,只有是地球上的语言,mRASP 都能够间接拿来微调,并且成果可期。
  • 资源耗费低。相比于上百张卡的「军备竞赛」预训练玩法,mRASP 更平民,仅须要 8 卡训练一周就能够失去。简略来说,咱们能够把 mRASP 了解为机器翻译畛域的轻量级 BERT,只有是机器翻译工作,任何场景或者语言,拿来用用,都有可能呈现小惊喜!

论文作者示意曾经在字节跳动研发的火山翻译零碎上应用了这项技术,失去了理论业务的测验。作者还颁布了钻研数据、代码和预训练模型,参见文末 GitHub 地址。

接下来咱们从三个方面介绍剖析 mRASP:1)机器翻译预训练的挑战;2)mRASP 的动机和办法;3)mRASP 的实际效果和剖析。

机器翻译预训练的挑战

目前绝大多数 AI 工作都是建设在数据根底之上的统计学习,模型的性能很大水平上依赖于数据的品质和数量。利用大量较易取得的数据来预训练模型,在具体利用场景中再利用大量标注数据微调来实现理论场景可用的模型,曾经成为 NLP 新的胜利范式。例如 BERT [2] 在大规模纯文本上预训练后,在自然语言了解的 11 项工作上进行大量微调就能获得很好的问题。不过,在多语言机器翻译中,通过预训练再微调的范式还未获得广泛的胜利。以前的 NLP 预训练形式例如 BERT、GPT [5] 的训练指标与翻译工作关注的指标之间差距过大,不易间接应用。

mRASP 提出了全新的思路,利用多个语言曾经积攒的大量双语平行语料,合并起来联结训练一个对立的模型,之后再基于此微调,让预训练和微调指标尽可能靠近,这样能力更大地施展预训练模型的作用。

上图比照剖析了之前 NLP 预训练方法在机器翻译场景间接利用的限度。BERT 和 GPT 别离对应了 Transformer [6] 编码器局部和解码器局部的预训练,而机器翻译用的是序列生成模型。这种模型构造的不统一会导致翻译模型只有一部分参数被初始化,难以无效施展预训练的作用,因而须要很多非凡的技巧能力失去性能晋升 [10]。

针对序列模型,很快也有研究者提出了 MASS [7] 和 BART [8] 等框架,将预训练扩大到序列生成工作。它们应用 auto-encoder(自编码器)进行自学习,在很多上游生成工作上都获得了显著的成果。然而在机器翻译利用中仍然存在两个重要的问题:第一是在资源丰盛的语种(例如英德和英法)上没有察看到晋升,第二没有方法扩大到多语种翻译工作。这种局限性,很大一部分起因在于自编码是绝对简略的工作,很难学习到更深层次的示意,而机器翻译须要更简单的语义转化,这种预训练指标和上游工作之间的差别导致模型很难最大水平地利用好预训练数据。

如何克服这两个问题,成了预训练模型在机器翻译畛域利用的重要挑战。

mRASP 的动机和办法

对于语言学习者来说,存在一个十分有意思的景象。他们发现在学习了三四种语言之后,再学习一门新的语言速度就会放慢。例如,如果有人别离学习德语和法语,可能各须要一年的工夫,然而他先学习德语再去学法语,可能只须要一年零三个月,接下来再去学习西班牙语,速度可能会更快 [3]。对于程序语言其实也是相似的情理,学习 C++ 可能须要一年,接下来再学习 Java、Python 可能只须要一个月。

一个通俗的解释是,人类在多语言学习的过程中会自发总结语言中比拟形象的共性,重点学习新语言的个性。因而想要晋升集体的语言学习能力,往往须要学习更多的语言,可能对语言的共性有更准确地把握,而不是拼命学习一种语言。同样的情理,对于机器翻译而言,是否把翻译能力迁徙到不同语言上,使得不同语言之间的信息能够相互利用,就成了一个十分乏味的问题。

mRASP 正是基于这样的思考,设计了一个通用的预训练模型,学习语言之间转换的共性,接下来就能够更容易地迁徙到新的翻译方向。就如同语言学习者一样,在学习了两种语言之后,学习第三种语言就变得很轻松了。

mRASP 的设计遵循了两个根本准则:第一,预训练的指标和机器翻译基本一致,须要学习语言的转换能力;第二,尽可能学习语言的通用示意、跨语言的句子或词语,如果语义靠近则隐空间中的示意也应该靠近。

mRASP 办法,应用带语言标识的 Transformer 作为翻译网络框架

mRASP 遵循了通用的预训练 – 微调框架。在预训练阶段,不同于传统预训练模型大量重叠无监督单语数据的形式,mRASP 另辟蹊径,采纳了多语言平行数据作为预训练的次要指标,将几十种语言的平行数据放到同一个模型进行联结训练。

神经网络构造采纳 Transformer,应用语言标识符 (Language token) 标识源语言和目标语言。为了保障不同语言的句子和词语能嵌入到同一个空间,同一个意思的句子无论中文还是英文都应该对应同一个向量示意。此外,该办法还引入了随机替换对齐技术 RAS,来制作更丰盛的上下文。

中文句子「我 爱 北京 天安门」中的「爱」有肯定概率被替换成「aime」(法语),「北京」也有肯定概率被替换成「Pékin」(法语),于是原句就可能会变成「我 aime Pékin 天安门」。训练集中的一对平行句对能够变为两对(甚至三对、四对……):

  1. 我 爱 北京 天安门 ==> I love Beijing Tiananmen Square
  2. 我 aime Pékin 天安门 ==> I love Beijing Tiananmen Square

对模型而言,通过大量学习这样的平行语料,它会很天然地依据这种「人为制作」的「语境」学习到不同语言的同义词之间的对应关系。实际上,这种基于平行词典的随机替换办法,拉近了不同语言的同义句在空间上的散布。在上例中,「爱」和「aime」(法语)计算出来的词向量冀望是尽可能靠近的。

而在微调阶段,只须要应用预训练阶段的参数进行初始化,之后采纳和传统单向机器翻译雷同的训练方法即可,因而 应用 mRASP 并不需要把握任何额定的技能。具体办法介绍参见论文 [1]。

mRASP 实际效果和剖析

mRASP 应用 32 个语言的平行语料进行预训练,在英语到法语方向上仅应用 wmt14 的平行语料进行微调,就达到了不须要应用费时费力的海量单语 Back Translation 的最佳成果 (44.3 BLEU)。同时,利用到新的语言方向——荷兰语 (Nl) 到葡萄牙语 (Pt) 时,仅应用 1.2 万平行句对,微调了十分钟就能够取得一个可应用的 (BLEU 10+) 模型,而等同平行句对量很难从头训练一个可应用的 MT 模型(BLEU 靠近 0)。

简略概括,mRASP 具备如下几点劣势:

模型简略易复现

mRASP 的预训练仅应用了共 1.1 亿对平行句对(因为同一对平行句对对两个方向都实用,所以一共是 2.2 亿个训练样本),词表大小仅 64k 个 bpe subword。相比于其它预训练方法动辄百亿数据几十层网络,mRASP 的训练难度更小,单机 8 卡不到一周即可在 32 个语言上实现预训练。当然在更多语言上的预训练模型也能够通过简略扩大取得。

通用性极强

mRASP 在大中小规模训练集上,绝对于间接训练的单向机器翻译模型,成果都有肯定的晋升,甚至包含平行语料最多的语向英语到法语(晋升了 1.1 BLEU)。即便对于预训练数据素来没有见过的语种荷兰语到葡萄牙语,它也获得了 10+ BLEU 的显著收益。

这里摘录了局部有代表性的试验后果:

1)En-De 和 En-Fr Benchmark

下图比照了 mRASP 加微调在英德 (En-De) 和英法 (En-Fr) 上的成果和最近同期的其余几个跨语言预训练模型加微调的后果。能够看出,mRASP 的成果是有肯定劣势的,它在 En->De wmt 2016 测试集上达到了 30.3 (tokenized BLEU), 在 En->Fr wmt 2014 测试集上达到了 44.3 (tokenized BLEU)。其余模型中,CTNMT 应用了 BERT 预训练;MASS 应用了大规模单语数据;mBERT 是多语言 BERT 模型;mBART 是同期呈现的另一种预训练形式,引入了海量多语言单语数据,训练工夫达到 256 卡 20 天。

2)预训练阶段没见过的语言扩大

不蕴含在预训练阶段平行句对中的语向,被称作「Exotic Direction」。在 Exotic Direction 上是否有成果,决定了 mRASP 是否具备很好的扩展性和泛化能力。

论文中对 Exotic Direction 分为四种状况:

  • Exotic Pair:源语言和目标语言都通过了独自地预训练,但模型还没有见过它们组成的双语对;
  • Exotic Source:模型在预训练阶段只见过指标端语言,源端语言齐全没见过;
  • Exotic Target:模型在预训练阶段只见过源端语言,指标端语言齐全没见过;
  • Exotic Full:模型在预训练阶段齐全没见过源端语言和指标端语言。

在这四种未见语对状况下训练机器翻译很难。其中难度最大的是最初一种,相当于要求只学习了中文和英语的人,读大量拉丁语和印地语的句子就能够做从拉丁语到印地语的翻译。

值得关注的是,法中 (Fr-Zh) 两边都独自呈现过,然而没有作为平行语对呈现过,只应用了 20K 平行语料就能够达到 20+ BLEU 值。

同时,对于两边语言都没在预训练阶段呈现过的语对,比方荷兰语到葡萄牙语 (Nl-Pt),只应用 1.2 万句平行语料,通过大略 10 分钟的训练后,也能够达到 10+ BLEU 值。

3. 案例剖析

为了更直观地了解 mRASP 的成果,作者在论文中也进行了案例剖析。

法中 (Fr-Zh)

  • Exotic Pair,20k 平行句对
  • Direct 0.7 BLEU 远弱于 mRASP 25.8 BLEU

Direct 零碎齐全不能翻译,而 mRASP 零碎翻译得很好。

荷葡 (Nl-Pt)

  • Exotic Full,1.2 万平行句对
  • Direct 0 BLEU vs mRASP 14.1 BLEU

通过案例剖析,咱们发现 mRASP 失去的荷葡翻译模型的翻译成果尽管不能胜利翻译每个细节,然而能抓住原文的一些要害信息。比方上面例子中的 (1) 日期 (2) 会议记录 <-> 会议的音讯 (3) 散发 <-> 共享。

英法 (En-Fr)

咱们发现,mRASP 办法训练进去的模型比 Direct 办法的模型优良的中央之一是:Direct 零碎疏忽了无实际意义单词(冠词、批示词等)的偏向,而 mRASP 放弃了冠词和批示词的统一。

英中 (En-Zh)

4. 成果剖析

mRASP 作为通用的预训练模型,它对各个 MT 上游工作的晋升成果从何而来?

作者认为,其晋升次要来源于两个方面:

  • mRASP 拉近了不同语言间同义词的向量示意;
  • mRASP 拉近了不同语言间同义句子的向量示意。

单词级别和句子级别的示意被拉近意味着,通过预训练阶段对大量语言的平行句对的解决和学习,mRASP 隐式地「把握」了语言无关的示意,而这个示意是能够被迁徙到任意语言上的,因而 mRASP 能够广泛地进步机器翻译上游工作的成果。

1)mRASP 拉近不同语言单词级别的向量示意

RAS 的引入使得不同语言的同义词之间共享雷同的上下文,而在 NLP 中词义是由上下文 (context) 决定的,从而进一步拉近不同语言之间同义词的示意。


上图:w/o RAS,下图:w/ RAS

能够看出,加了 RAS 办法之后,不同语言之间的 embedding 散布被拉近了(角度变小)。

2)mRASP 拉近不同语言句子级别的向量示意

除了拉近同义词的向量示意之外,mRASP 还拉近了语义的向量示意。

应用编码器输入向量作为句子的空间表征(L2 normalized averaged-pooled encoder output),从 TED 平行测试集(通过过滤失去的 15-way 平行测试集,共 2284 条)中匹配到类似度(cosine similarity)最近的句子,计算 Top-1 准确度 (sentence retrieval accuracy)。

图 1:mRASP 的准确度减去 mBART [9] 的准确度,留神荷兰语(Nl)在 mRASP 预训练数据中齐全没呈现过,其余方向上的准确度都大大超过了 mBART。

mRASP 检索的均匀准确度达到 76%。

图 2:mRASP 的准确度减去不应用 RAS 的 mRASP 办法的准确度。能够看出 mRASP 的 RAS 办法在预训练阶段没呈现过的语言 (Nl) 上有显著收益。

图 3:将句首的语种标识符(Language token)去掉当前,Nl 的准确度还能够进一步晋升,不过其余语言上的准确度大幅降落。

能够看出,RAS 办法确实进一步拉近了语义向量示意,雷同语义的句子在 mRASP 预训练之后会失去靠近的示意。

总结

回到文初,语言蠢才赵元任学生毕生把握 33 种方言加 7 门外语,从南方的保定到北方福州,从长江上游到上游,从美国伯克利到法国巴黎,到了当地就能用当地口音说本地话。而建设对立的多语言跨畛域的翻译模型正是机器翻译钻研的终极目标之一。向语言蠢才赵元任看齐的 mRASP 建设了多语言预训练到微调到多个语种翻译模型的胜利门路,这也会成为机器翻译的新范式。字节跳动曾经将这项技术利用到火山翻译零碎里,能够在下方所附网页中体验。

  • Github 地址:https://github.com/linzehui/m…
  • 论文地址:https://arxiv.org/abs/2010.03142
  • 火山翻译体验官网:http://translate.volcengine.cn/

参考文献

[1] Lin, Zehui, et al. “Pre-training Multilingual Neural Machine Translation by Leveraging Alignment Information.” In the Conference on Empirical Methods in Natural Language Processing  (2020).

[2] Devlin, Jacob, et al. “Bert: Pre-training of deep bidirectional transformers for language understanding.” NAACL-HLT (1) 2019: 4171-4186.

[3] Thomas, Reed, and Callie Mady. “Teaching for transfer: Insights from theory and practices in primary-level French-second-language classrooms.” McGill Journal of Education/Revue des sciences de l’éducation de McGill 49.2 (2014): 399-416.

[4] Johnson, Melvin, et al. “Google’s multilingual neural machine translation system: Enabling zero-shot translation.” Transactions of the Association for Computational Linguistics 5 (2017): 339-351.

[5] Radford, Alec, et al. “Improving language understanding by generative pre-training.” (2018): 12.

[6] Vaswani, Ashish, et al. “Attention is all you need.” Advances in neural information processing systems. 2017.

[7] Song, Kaitao, et al. “MASS: Masked Sequence to Sequence Pre-training for Language Generation.” ICML. 2019.

[8] Lewis, Mike, et al. “Bart: Denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension.”  ACL 2020: 7871-7880

[9] Liu, Yinhan, et al. “Multilingual denoising pre-training for neural machine translation.” TACL.2020

[10] Yang, et al. “Towards Making the Most of BERT in Neural Machine Translation”  AAAI.2020

正文完
 0