随着新媒体平台的衰亡,人工智能技术曾经大大提高了信息内容的创作,而个性化举荐算法的信息又为信息内容的散发提供了极大的便当,这其中,文本生成技术十分重要,因为它在很多的利用场景有宽泛的利用,比方机器翻译、机器写作、对话机器人以及主动问答。2019 年在《管理科学》杂志上 MIT 钻研人员发表的一项最新钻研表明,机器翻译技术曾经将国际化贸易量进步了 10%,这相当于将地球上的各个国家之间的间隔缩短了 25% [1]。
近年来,字节跳动也研发了多项先进的机器翻译技术,目前字节跳动自研的火山翻译平台曾经有公司内外的 50 多个客户应用,反对超过 50 多种语言的相互翻译。此外,在字节跳动咱们研发了 Xiaomingbot 主动写稿平台,自 2016 年上线以来,曾经累计写了 60 万篇文章,笼罩了 17 项的体育赛事,反对 6 种语言,在自媒体平台下面也有 15 万的粉丝。
上面给大家展现一下 Xiaomingbot 如何主动写新闻。
咱们的零碎将从数据源获取到较量信息,例如球员较量布阵、球员的进球等等信息。同时咱们还会利用计算机视觉的算法,对较量视频进行剖析辨认出其中的球员、球衣下面的号码,球员的静止轨迹、球员的动作、球员的地位以及要害的一些场景等等。再利用这些信息咱们利用文本生成算法写出最初的文章 [2]。
在另外一项钻研当中咱们应用计算机视觉的算法去剖析斯诺克较量的静止、桌上球的静止轨迹、以及利用机器学习最初去预测球员的击球策略,预测下一杆球会落到哪个袋,并且利用这些预测去生成最终的较量讲解 [3]。这对于一些非职业的观众来说,十分有助于帮忙了解球赛的过程。这是咱们算法最终生成的一些讲解状况。
本场讲座,会分为五局部内容。第一局部,我会给大家先简略介绍一下什么是序列生成问题,它有什么样的难度和挑战;第二局部,将介绍深度隐变量模型,Deep latent Variable Models for Text Generation;第三局部,我将介绍文本生成当中如果加上限度之后,如何做更好的算法,咱们提出了一类蒙特卡洛采样算法来做文本生成;第四局部会介绍机器翻译当中如何使一个模型能够去获取四项双语语言能力。最初一部分介绍多语言的机器翻译,咱们最新的一个工作 mRASP。
序列生成问题的难度和挑战
在自然语言中,所有自然语言宣称的外围问题是对句子序列做建模,比如说这样一个句子的 The quick brown fox jumps over the lazy dog 句号,这里有 10 个字符,Modeling 的问题就是对这 10 个字符的联结概率去建模,也就任意一个句子长度为 L 的句子,我须要对整个 L 各字符对它算出它的联结概率分布。当然最根本的一种办法是叫 Auto-Regressive Language model,是把这个联结概率分解成上面这个模式,每一个局部它实际上是第 i 个字符的概率,是建设在后面 1 到 i-1 个字符的根底之上,这具体的每一个概率能够有很多建模的办法。比如说当初从 2017 年开始比拟风行的叫 Transformer 网络外面对个条件概率的建模是应用多层的多头注意力机制(Muti-Head Attention)来建模的 [4]。当然这个 Transformer 有很多的参数,理论学习当中就须要找到最好的一组参数,使得语料外面的联结概率最大。
在另外一些问题当中,例如机器翻译、对话生成以及主动问答当中,咱们通常会有一个输出,输出也是一个序列,咱们要针对这个输出做一个输入,例如机器翻译,给定一个输出的英文句子(X),咱们要输入一个目标语言中文的句子(Y),所以咱们要对 Y|X 这样一个条件概率去建模,同样能够用之前提到的 Transformer 模型来对这个概率建模。
把深度生成模型依照办法类别去归一个类,大抵能够分成这样几类:依照天然预计的办法能够分成概率密度有没有显式密度(explicit density),以及隐式密度(implicit density)。显式密度当中又分是否密度是可间接计算的,例如像自回归合成(Auto-Regressive Factorization)外面的 Transformer 模型 [4]。如果不是自回归合成,还有像马尔科夫合成(Markov Factorization)以及并行合成(Parallel Factorization)。像最新做的一些工作就 GLAT 等等这样一些工作就能够做并行合成。在显式密度中另外一块是不可高效计算的密度(Intractable Density),也是明天须要重点介绍的一类模型,叫隐变量模型(Latent Variable Model),典型的代表有 DSSVAE、VTM 等,本场讲座也将会介绍。
如果说这个密度没有显式公式的,是隐式的,也就是说你无奈严格地写出它的概率分布,通常能够写出它的能量函数(Energy Function),能够是条件能量模型(Conditional Energy Based model)或者是受限概率模型(Constrained Probability Model)。这次,咱们会特地介绍受限概率模型如何来疾速生成句子。蕴含 CGMH、MHA、TSMH 等一系列算法。但有一部分内容这里不会介绍,就是反抗学习(Adversarial learning),它曾经超出极大天然概率预计这个范畴以外。
接下来的一部分我将会介绍文本生成的深度隐变量模型(Deep Latent Variable Models for Text Generation)。我具体会介绍两类工作,一类是咱们如何从文本当中学到可解释的深度隐含示意。第二类是咱们如何从文本当中学到解耦的一个示意,并且利用这个解耦的示意来做更好的文本生成。
文本生成的深度隐变量模型
咱们先看第一局部,咱们要去学可解释的隐层示意,那么,什么是可解释?咱们看这样一个具体的问题:咱们从对话的句子当中心愿去学到对话的一个隐示意,并且这个隐示意对应肯定的语义关系,例如这里两个对话,”Remind me about the football game”,”Will it be overcast tomorrow”。这两个对话句子对应两个不同的用意,第一个用意是心愿去给它一个揭示(Remind),第二个用意是问路(request for the information about where),这两个用意咱们心愿从句子自身通过学这样一个生成模型去学到,你在应用当中就能够依据对应的不同的用意去生成不同的答复。
传统的做法是用变分自编码(Variational Auto-encoder)的办法,去学一个隐示意,这个办法具体是假如有一个隐变量(Latent Variable)Z,它本人有一个高斯分布。从这个 Z 外面能够生成出文本句子 X 进去,利用这样的办法,Kingma & Welling 在 2013 年提出了 VAE 的算法,通过变分推断去学到隐层示意。这个办法当然能够去生成句子,也能够学到隐示意。然而当你把这个隐示意投影到低维空间去可视化进去的时候,你会发现不同的句子全副都混合到一起了,这整个混合在一起的一个大组并没有显著的聚类,所以很难去解释这个隐层示意。
如何从这里的隐变量 Z 失去一个可解释的隐层示意?一个比拟好的天然的办法是在隐变量 Z 下面再加一个先验变量 c,而这个先验和 Z 不同的在于 Z 是间断的,Z 的先验 C 是离散的。也就是说,Z 是一个高斯混合散布(Gaussian Mixture distribution),咱们心愿从原始文本里去学到比拟有意义的 C 和 Z,这样不同语义、不同用意的句子能够落到不同的聚类外面,也就是对应不同 C 的值。
这里有一个很重要的动机是,在隐变量模型外面引入离散的变量,会显著进步模型的可解释性。这个欲望当然十分美妙,可是大家在理论学习过程中会发现,往往学到的 Z 去投影到低聚维空间的时候,会产生一个 mode-collapse 问题,也就是实际上学到的这些不同的用意的句子,它在隐空间的示意是混合在一起的,无奈看到一个很显著的辨别。如何从混合在一起的辨别外面,去了解为什么会产生这种景象?并且试图去修改它,使它失去咱们心愿的可解释的一个隐层示意?
咱们最近在 ICML2020 下面的发表的 DEMVAE 的工作 [5],实际上解决了这个问题。
首先咱们把要解决的模型推广到一个十分宽泛的一族模型叫指数族混合变分自编码器(Exponential-family Mixture VAE)中。咱们假如句子 X 是由一个隐变量 z 生成进去的。z 是指数族密度的一个混合散布。这里的 C 是离散的,代表不同混合概率。而 Z 是对应的不同组分,每个组分是一个指数族概率分布。咱们后面提到的高斯混合自编码器 (Gaussian Mixture VAE) 是属于这一族散布外面的一个具体例子。
同样,这个模型咱们要去间接预计的话,也依然会遇到峰值塌缩(mode collapse)的问题。咱们做的一个解决方案,是咱们仔细分析了损失函数(Loss Function),咱们发现只有在这个损失函数外面,也就是变分下界(Variational ELBO)外面加上一个额定的惩办项叫离散项(dispersion term),加了这个之后,咱们最终就能够让不同的峰值不会产生塌缩,从而会学到更有意义的隐层空间示意。
这是咱们应用 DEMVAE 办法去学习到的一个成果。咱们从对话句子外面去学到它的一个隐层示意 C 和 Z,留神 C 是离散的。咱们用后验散布去剖析这个 C 并且对它做一个简略的分类,发现这个 C 和实在的用意会十分十分靠近,例如右边的这些句子,咱们剖析进去它们都属于同一个 C,实际上能够对应对话动作是问路(Request address),第二类都是对应问天气(Request-weather)这样一个用意。有了这个之后,咱们就能够去生成更好的对话回复,例如,这样一个输出句子,“Taking you to Chevron“,咱们能够预测如果说咱们须要去做感激这个用意的话,咱们能够生成这样一个回复句子,“Thank you car,let us go there“,如果说咱们要去 Request address 的话,咱们又能够生成另外一个句子,What is the address,所以依据不同的例子进去的用意,咱们能够做可控的生成,这也是可解释性带来的一个益处。
介绍了可解释性,咱们再介绍另外一个相干的问题,叫数据到文本的生成(Data-to-Text Generation),这个问题咱们给定一个数据表格它是一个键值(Key- vaule)的表格的模式,比方这里显示了一个餐馆的一些的属性,心愿去生成这个餐馆的形容。例如这左边是它一个可行的形容。这个问题能够把它建模成数据到文本的生成,Data-to-Text Generation。传统的做法是人工写出十分多的模板,这个模板外面留了很多空位,这些空位和数据联合之后,咱们就能够去生成比拟好的文本了。当然理论利用当中,咱们不心愿生成是变化无穷的,咱们心愿同一个内容能够生成各式各样的文本。这就须要咱们人工去写十分多的模板,而人工写这些模板是比拟干燥的。
咱们心愿提出一个新的办法,它可能主动地从语料外面学到这些模板,并且依据这些模板去做很好的生成。如何做呢?咱们有两个动机:一是咱们从概念上能够把隐空间的示意辨别成两个随机变量,一个变量是用来刻画的数据内容(Content),另一个随机变量是用来刻画模板(Template),这样两个合起来之后,咱们就可能从数据外面去生成句子。并且咱们心愿这个模板的隐层示意不是显示的离散的示意,而是间断的一个空间,这也就意味着你能够有简直有限的模板。
第二个动机是咱们不仅仅须要利用成对的表格和文本句子,这样一个成对数据来训练,咱们实际上这种成对的数据是非常少的。在理论利用中,咱们还是心愿去利用原始文本(Raw text)来训练,并且从原始文本当中学到模板(Template)和内容(Content)的示意。
咱们提出了一个新的模型叫变分模板机(Variational Template Machine),这个模型外面次要框架和后面介绍的变分自编码器(Variational Auto-encoder),实质上是十分相似的,然而与之不同的是咱们有两个隐变量,一个是内容隐变量 C,它是从数据外面来失去的。另外一个是模板隐变量 Z,是有本人的先验散布。
生成的过程是怎么样的呢?一个输出数据 X,示意成 field,position 和 value 的一个三元组汇合。咱们先从输出的数据 X 外面去计算内容变量 C,这个能够通过一个神经网络来实现。第二步咱们从 Z 的先验(例如高斯分布)外面去采样一个 Z,失去 Z 的值,这是相当于从一个无限大的模板库外面去采样抉择一个模板。第三个是把 C 和 Z 合并之后,利用另外一个神经网络,例如 Transformer 能够去做生成。
利用这个变分模板机(Variational Template Machine)它最大的益处是不仅可能利用成对的表格数据和句子来训练,还能够利用额定的原始文本,这个并没有对应的表格数据也能够用来训练,并且晋升这个模型的性能。这就相当于做了一个反向翻译,依据原始文本找到了对应的 C 和 Z,即模板和内容的后验散布,等同于制作了更多的一些伪平行语料,而这些伪平行语料能够用来晋升学习的成果 [6]。
咱们在 WIKI Data 和 SPNLG 的 Data 下面去做了试验,前者依据数据去生成个人简介,后者是依据餐馆的一些属性去生成餐馆的形容。
这里两幅图比拟了咱们变分模板机 VTM 办法和其余一些生成办法的性能优劣。纵轴是 BLEU SCORE,是用来掂量的生成后果和实在后果之间的相关性,所以越高越好。横轴是 self-BLEU,是用来掂量同一个办法生成的不同句子之间的相关性,咱们心愿同一个办法生成的句子,相互之间相关性越小越好。所以现实状况是:左上角的地位,品质最高,BLUE SCORE 最高,而 Self-BLEU 相关性越好,Self-BLEU 要越低越好。咱们提出的这个变分模板机办法,它在品质下面和 Self-BLEU 两方面都获得了最好的分数。
咱们也比拟了变分模板机的劣势,如果残缺的变分模板机它并不应用原始文本的话,只用成对数据对它来训练,它的性能就会降落,它的 Self-BLEU 品质会降落,同时它的多样性会升高。所以额定的原始数据还是十分重要的,咱们也验证了在这个过程当中有一些重要的训练指标,也是起了十分要害的作用,去掉它也会使性能降落。
应用这个变分模板机 VTM 模型,咱们失去的额定的一个益处是咱们可能去剖析原始数据外面它对应的隐变量,以及通过这个隐变量找到数据的一些正当的构造。例如,咱们把模板变量 z 映射到二维空间去之后,咱们会发现每一个句子实际上有一些独立的聚类,比如说左边这个聚类它对应于因果形容,外面的句子基本上都有一些 because、since、with 等等这样一些表白因果的模式在外面,这个是齐全从数据外面学到的。
如果大家关怀的话,这里有生成的一些例子,这是从用户画像去生成用户简历的一个例子,通过在模板变量外面做不同的采样,咱们能够失去不同的模板值,把它与表格外面学到的内容变量合并之后咱们可去生成不同的句子,不同的句子长度和写作格调都有很大的差异,这样就失去了比拟多样,并且品质比拟高的一些句子。
利用相似的解耦示意学习(Disentangled Representation Learning)的办法,咱们也能够去学到句子的语法示意以及语义示意。
这个语法示意和语义示意有什么作用?咱们能够做一个十分乏味的试验,叫『句子嫁接』。例如有两个句子,“There is an apple on the table”,“The dog is behind the door”。咱们能够从从第一个句子外面学到它的语法示意,从第二个句子外面学到它的语义示意,把前者语法示意和后者语义示意合并起来,通过 DSSVAE 模型 [7],生成另外一个句子,“There is a dog behind the door”。从模式上,它十分靠近第一个句子,都是 there-be 句型;从语义上,它更靠近第二个句子,这就是句子嫁接。有了句子嫁接之后,咱们能够利用这个技术在品质十分高的文章下面去学一些模型。比方一些业余作者要写文章的时候,咱们就能够用这些高质量文章下面学出的模型去帮忙业余的作者改良他们的写作内容。这是第二局部,文本生成的深度隐变量模型(Deep Latent Variable Models for Text generation)。
第三局部我将介绍一下,如果文本生成过程当中有额定的条件限度,如何高效地去做生成。这个问题是咱们在火山引擎的实际当中发现的。
受限文本生成的蒙特卡洛办法
如果说咱们要广告主设计一个广告,心愿在广告文案当中呈现一些给定的关键词,这个问题能够形容成受限文本的生成(Constrained Text Generation)。这里具体的限度是 keyword-occurrence constraint,即这些词必须要在句子当中呈现。针对关键词限度(keyword occurrence),传统的算法是格束搜寻(grid beam search)[8]。通过格束搜寻,咱们可能去生成一些句子,句子中必然会蕴含给定的关键词,然而这种办法并不能保障会生成品质比拟高的句子。
咱们提出了一个新的基于采样的文本生成框架。首先咱们把指标问题和指标函数拆解成两局部,第一局部是预训练好的语言模型表征句子概率(pre-trained language model),这部分代表了句子自身的通顺水平,所以能够用以前训练好的语言模型来示意,对应图中橘黄色的局部。第二局部代表的是 受限的文本,这能够用批示函数(indicator function)来示意图中蓝色的局部。而咱们指标的句子,实际上是这两局部的交加,也就是图中红色的局部。
咱们的指标是从红色的局部外面去生成既通顺又满足束缚的高质量句子。所有的文本生成问题简直都能够用这样一个框架来示意。而有了这样一个指标问题的示意之后,咱们发现这个指标函数实际上不是一个正当的、无效的概率分布,因为它并没有归一化,要间接去找出其中的概率最高的样本点是比拟艰难的。
咱们提出了一个新办法——CGMH [9]。
首先咱们从原始语料当中能够预训练一个语言模型,例如当初比拟风行的 GPT2 或者 GPT3 [10]。而后咱们从一个初始的句子登程,一直地批改这个句子,每一步都能够 插入、替换、或 删掉 一个词。对于失去的新句子,咱们再用梅特罗波利斯-黑斯廷斯算法(Metropolis-Hastings)去计算是否承受这个改变还是保留原来的句子。通过这样一直迭代式的改变之后,咱们最终就能够失去一些比拟高质量的句子。这是整个 CGMH 的核心思想。
咱们也在之前介绍的关键词束缚的文本生成工作上做了试验,这张图是 CGMH、格束搜寻(GBS,即 grid beam search)以及 LSTM 等算法的比照。上图是主动评估 NLL(Negative Log-likelihood)分数,越低越好;下图是人工评估的指标,越高越好。在高低两个图当中,CGMH 办法(红色柱子)都失去了最好分数。
咱们曾经将 CGMH 部署到大规模线上广告创作平台,去为咱们的广告主服务。它曾经被超过 10 万个广告主以及组织驳回,每天生成十分多广告,广告文案的驳回率约达 75% 以上,也就是说 CGMH 生成的广告品质实际上是十分高的。
利用相似的思维,咱们还能够去做反抗文本的生成。在机器学习外面,很多机器学习分类模型都是十分软弱的,非常容易受到一些噪声(Noises)或者攻打(Attacks)的影响。如果要去剖析它会受到哪些影响,咱们就要去生成反抗样本,而在文本外面,如果要生成比拟像人说的话且具备反抗性质的文本,实际上是十分难的。而咱们用 CGMH 同样的思维去建模之后,就能够疾速找到比拟高质量并且真正具备反抗性质的样本。例如,咱们有一个情感分类器,要对影评文本做情感分类。原来对于句子「I really like this movie」,能够正确地进行情感分类,是 99% 的正向(Positive),通过 MHA 算法,在不改变语义的状况下,咱们的算法只小小改变了几个词,把它改成「we truely like the show」,这个时候就会让情感分类器混同了,它甚至会认为这个句子是 59% 的负向(Negative)[10]。
更简单的限度(Constraints)是咱们有一些逻辑的或者组合的限度,在这个状况下,要去做生成实际上就十分难了。比方我要把一个陈述句改成一个疑问句,同时要害信息要保留,不能缺失,就须要加上比拟多的组合的限度以及逻辑语义上的限度。逻辑语义上的限度加了之后如何去做生成,这是比拟难的一个问题。
同样,咱们把它建模成采样的模式,把指标函数分成两局部,第一局部有语言模型,第二局部有限度,不过这里的限度依据逻辑公式去做了一个结构,依据这个限度去做生成,咱们提出了一个新的算法,叫 TSMH(Tree Search enhanced Metropolis-Hastings),这个算法能够高效地针对指标函数去做采样 [11]。这是介绍的带限度的文本如何去做生成。
接下来我将介绍一下咱们在神经网络机器翻译方面最新钻研的办法,如何去晋升神经网络机器翻译的性能。首先我要介绍镜像生成式模型(Mirror Generative Model),这是 2020 年发表在 ICLR 会议下面的一个新办法。
镜像生成式模型
如何晋升神经网络机器翻译
咱们晓得,神经网络机器翻译是十分吃数据的,一个好的翻译模型须要大量的平行双语语料来训练。有很多的语对之间并没有这么大量的平行语料,例如对于中文到印第语的翻译,实际上是无奈找到中文和印第语之间大量的平行语料的。天然的一个问题是:咱们是否利用繁多语料去做训练,例如英语到泰米尔语的翻译当中,咱们有大量的英语或者泰米尔语的单语语料,咱们利用单语的语料和大量的平行语料一起来做更好的训练。
如何做到这一点呢?实际上当咱们察看人的语言能力,咱们从中失去一个启发。当一个人会中文和英文的时候,他必然同时具备四种能力:能用中文造句,能用英文造句,能把中文翻译成英文,也能把英文翻译成中文。实际上这里代表了四种语言能力,咱们把前两种对应到神经网络外面的语言模型,把后两种对应到神经网络外面的两个翻译方向。
那么,咱们是否做一个模型,使得它像人一样只有会两种语言,就会与这两种语言相干的四种语言技能?答案是必定的。咱们能够在两个语言句子 X、Y 之间引入一个隐变量 Z,这个隐变量同时跟原语言以及目标语言无关。把它作为一个桥梁之后,咱们把四种技能都整合到一个模型外面,做目标语言的生成,就是 P(Y|Z),原语言到目标语言的翻译就是 P(Y|X、Z),原语言的语言模型就是 P(X|Z),而目标语言到原语言的翻译模型就是 P(X|Y,Z)。如何把这四个概率都放到一个框架外面去呢?咱们有一个重要的发现,就是镜像性(Mirror property),咱们发现生成概率 P(X,Y|Z),实际上能够写成这样对称的模式,最终把它分解成四项,而这四项别离代表了原语言和目标语言的生成能力,以及原语言到目标语言、目标语言到原语言的翻译能力。而把四个放到一起之后,咱们就能够去联结做优化,也就是咱们提出的镜像生成式神经机器翻译模型(MGNMT)[12]。
利用这个镜像生成模型(MGNMT),咱们在多个数据上都失去了最好的翻译后果。在低资源的状况下,绝对于传统的 Transformer 或者 Transformer 联结反向翻译(Back Translation)的形式,MGNMT 都有比拟统一的、显著的进步。
在高资源的状况下(例如英德语向),利用 MGNMT 加上额定的非平行语料之后,咱们能够仍然比 Transformer 加上反向翻译的办法有显著晋升,并且验证了非平行语料的数据是十分有用的,而 MGNMT 在低资源语向的晋升会更大一些。
多语言翻译预训练
方才提到两个语言之间的翻译,咱们下一步要介绍的是咱们如何做更多语言的翻译。咱们在最新的发表在往年 EMNLP 会议上的工作 mRASP 的论文当中就提出了一个多语言预训练的办法。mRASP 是一个全新的范式去训练一个多语言翻译模型,并且在很多场景外面进行大量微调之后,就能够让它在指标语对之间的翻译有较大的晋升 [13]。
世界上有十分十分多的语言,如果你数一下,真正有人应用的人类语言有超过 6900 种,咱们这里的指标是去构建一个对立的翻译模型,可能主动翻译任何语对。这当然是机器翻译的最终目标,这个指标也是十分具备挑战性的。
咱们为什么要把很多门语言放在一起训练?第一个事实的起因是,要训练一个好的机器翻译的模型须要大量的平行语对,而很多语对之间并没有平行语料,所以很多语对之间是十分稠密的。第二个起因是,依据咱们的直观教训,在语对之间有很多独特的信息是能够迁徙的。咱们晓得,如果一个人学德语须要花一年工夫,他学法语也须要花一年的工夫,这是独自学习的状况。如果他花一年工夫先学了德语之后,再去学法语,只须要花三个月工夫就能够学会法语了。也就是说,当一个人有了学习德语的能力之后,再去学另一门语言,能够大大缩短他学习其余语言的工夫,这就是常说的举一反三。这就给咱们一个很大的启发,咱们在做多语言翻译的时候,兴许把很多语言放在一起学,总的代价能够比独自学习各门语言的代价总和要小得多。
从模型上来讲,咱们还有一个更深层次的指标,更偏数学的一个直观想法是:如果独自学习英语、法语、西班牙语、德语、意大利语等语言的翻译,咱们可能学到一个比拟好的示意,然而这些示意之间都没有互相的关系。其实这些语言之间,咱们仍然能够找到一些双语的语对把它们连接起来,这些语对具备雷同的意思。
咱们就心愿通过这些具备雷同意思、并且在各个语言外面都呈现的一些句子作为锚点,有了这个锚点之后,咱们再去对立地学习所有的语言的示意,这样就会学到一个更好的示意。在这个示意的框架下,一个句子即便在不同的语言外面,只有它有同样的语义,就会映射到同样一个示意空间外面的向量下面去。
这也是咱们提出的 mRASP 核心思想。mRASP 翻译的模型是用基于 Transformer 的编解码器(Encoder-Decoder),咱们在输出端加了编码器(Encoder)的语言标识符去示意它输出的语种,在解码器(Decoder)做了一个额定的输出是目标语言的语言标识符,示意它须要翻译的语种。
除了应用大量的双语平行句对来训练之外,咱们还利用这些平行句对做了一个数据加强。通过创造的随机对齐替换(Random Aligned Substitution)的办法,咱们把原句外面一些词通过同义词词典找到它对应的另外一种语言外面的同义词,而后做随机替换,之后把替换后的源端句子和真正的指标句子再组合成一个伪平行句对,通过这样的形式去做训练之后,就能够失去一个比拟好的模型。
通过 mRASP 这个办法,咱们在很多场景上来做了多种语言翻译的测试,这外面显示了咱们通过 mRASP 训练了一个初始的模型,这个对立的模型咱们在具体语对平行数据上又去微调。比如说这里英语到白俄罗斯语(Be),咱们利用 mRASP 预训练好的模型在英语到白俄罗斯语微调之后失去的翻译模型,和在英语到白俄罗斯语双语语料下面间接训练出一个 Transformer 翻译模型做比拟之后,发现 mRASP 能够大大晋升翻译的性能。在极低资源方向(Extremely-Low Resource Directions)以及低资源方向(Low Resource Directions)这两种场景下,咱们都发现 mRASP 这样做预训练微调之后会失去更好的翻译,晋升都在 10 个点以上。
在中等资源(Medium Resource)和高资源(Rich Resource,指双语语对有 100 万以上的平行语料)两个场景下,咱们发现 mRASP 办法依然有比拟大的晋升,咱们也和之前提出的所有其余办法做了比照,包含 XLM、CTNMT、MASS 以及 mBART 等。
咱们也做了另外一个试验,mRASP 是否对未见语种也无效?通过 mRASP 训练了之后,咱们在一些素来没有见过的语对下面去做微调,例如从荷兰语(Nl)到葡萄牙语(Pt)。这两个语言都没有在 mRASP 的预训练语料外面呈现过,而且微调阶段双语平行语料只有 1.25 万,非常少,如果间接在这个语对下面用 Transformer 去训练的话,得不到任何有意义的后果,BLEU SCORE 会是 0。用 mRASP 预训练好的模型,在荷兰语到葡萄牙语的语料下面去微调之后,会失去一些有意义的翻译后果,而 BLEU SCORE 也有了 10 个点的晋升(从 0 涨到 13)。
简略总结下我的演讲内容。这里我介绍了多模态合作机器人 Xiaomingbot,也介绍了两种从数据当中学到解耦隐示意(Disentangled Latent Representation)的办法,包含变分模板机 VTM,用来做数据到文本的生成(Data-to-Text Generation)。以及 DSSVAE,从数据当中学到文本和语义隐层示意的。以及 DEMVAE 办法,如何从原始文本数据当中学到有意义的隐示意和语义聚类。我也介绍了在文本生成当中如果有额定的限度,如何用比拟好的一些办法去生成高质量的句子,并且合乎这些限度,如 CGMH、MHA 和 TSMH 等办法。最初我介绍了两个机器翻译的新办法,一个是镜像式生成模型 MGNMT,能够把平行语料和非平行语料联结在一起去学到两个语言之间的四种语言能力。而 mRASP 更是把机器翻译预训练推广到十分多的语对之间,把这些语对联结起来训练一个比拟好的模型,而后在上游的翻译工作上做微调,可能十分无效地晋升翻译性能。
咱们也开源了一些算法还有工具,包含 mRASP。咱们曾经把训练后的以及训练好的模型开源。咱们最近也公布了一个高性能的序列推理工具 LightSeq [14],针对 Nvidia 的 GPU 做性能优化,重写了序列生成的计算内核,并且在序列生成机器翻译等工作上绝对 tensorflow 版本,有 10 倍以上的速度晋升。
最初,咱们曾经推出了火山翻译零碎,而且 火山引擎 AI 中台也汇合了包含视频翻译、机器翻译、智能同传等模块性能,如果有趣味,欢送点击「火山翻译」体验理解!
_参考文献:
[1] E.Bry__njolfsson, X. Hui and M. Liu, “Does machine translation affectinternational trade? Evidence from a large digital platform.,” ManagementScience, vol. 65, no. 12, pp. 5449- 5460, 2019.
[2] R.Xu, J. Cao, M. Wang, J. Chen, H. Zhou, Y. Zeng, Y. Wang, L. Chen, X. Yin, X.Zhang, S. Jiang, Y. Wang and L. Li, “Xiaomingbot: A Multilingual RobotNews Reporter,” in the 58th Annual Meeting of the Association forComputational Linguistics (ACL): System Demonstrations, 2020.
[3] Z.Sun, J. Chen, H. Zhou, D. Zhou, L. Li and M. Jiang, “GraspSnooker:Automatic Chinese Commentary Generation for Snooker Videos,” in the28th International Joint Conference on Artificial Intelligence (IJCAI) : Demo,2019.
[4] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser and I. Polosukhin, “Attention is All You Need,” in NeurIPS, 2017.
[5] W. Shi, H. Zhou, N. Miao and L. Li, “Dispersed Exponential Family Mixture VAEs for Interpretable Text Generation,” in the Proceedings of the 37th International Conference on Machine Learning, 2020.
[6] R. Ye, W. Shi, H. Zhou, Z. Wei and L. Li, “Variational Template Machine for Data-to-Text Generation,” in Proceedings of International Conference on Learning Representations, 2020.
[7] B. Bao, H. Zhou, S. Huang, L. Li, L. Mou, O. Vechtomova, X. Dai and J. Chen, “Generating Sentences from Disentangled Syntactic and Semantic Spaces,” in the 57th Annual Meeting of the Association for Computational Linguistics, 2019.
[8]C. Hokamp and Q. Liu, “Lexically Constrained Decoding for Sequence Generation Using Grid Beam Search,” in the 55th Annual Meeting of the Association for Computational Linguistics, 2017.
[9]N. Miao, H. Zhou, L. Mou, R. Yan and L. Li, “CGMH: Constrained Sentence Generation by Metropolis-Hastings Sampling,” in the 33rd AAAI Conference on Artificial Intelligence , 2019.
[10] T. Brown, B. Mann, N. Ryder, M. Subbiah, J. D. Kaplan, P. Dhariwal, A. Neelakantan, P. Shyam, G. Sastry, A. Askell, S. Agarwal, A. Herbert-Voss, G. Krueger, T. Henighan and Chil, “Language Models are Few-Shot Learners,” in Advances in Neural Information Processing Systems, 2020.
[11] H. Zhang, N. Miao, H. Zhou and L. Li, “Generating Fluent Adversarial Examples for Natural Languages,” in 57th Annual Meeting of the Association for Computational Linguistics – short papers, 2019.
[12] M. Zhang, N. Jiang, L. Li and Y. Xue, “Language Generation via Combinatorial Constraint Satisfaction: A Tree Search Enhanced Monte-Carlo Approach,” in the Conference on Empirical Methods in Natural Language Processing (EMNLP) – Findings, 2020.
[13] Z.Zheng, H. Zhou, S. Huang, L. Li, X. Dai and J. Chen, “Mirror GenerativeModels for Neural Machine Translation,” in International Conference onLearning Representations , 2020.
[14] Z.Lin, X. Pan, M. Wang, X. Qiu, J. Feng, H. Zhou and L. Li, “Pre-trainingMultilingual Neural Machine Translation by Leveraging AlignmentInformation,” in the Conference on Empirical Methods in NaturalLanguage Processing, 2020.
[15] “LightSeq,”[Online]. Available: https://github.com/bytedance/… [Accessed 2020].