关于人工智能:有道-AI-论文入选-COLING-2022引入条件掩码语言模型用于神经机器翻译数据增强

计算语言学国内会议 COLING 2022 是计算语言学和自然语言解决畛域的重要国内会议，由国内计算语言学委员会（International Committee on Computational Linguistics，ICCL）主办。

有道 AI 在机器翻译方向的钻研论文，被 COLING2022 以长文模式正式录用发表。

题目：Semantically Consistent Data Augmentation for Neural Machine Translation via Conditional Masked Language Model
作者：程桥，黄瑾，段亦涛

论文全文请见文末「浏览原文」

神经机器翻译（NMT）通常须要大量的双语平行语料进行训练，在小数据的训练集上非常容易过拟合。高质量的双语平行语料比拟难获取，通常人工标注语料须要较高的老本。数据加强办法是一种无效裁减数据规模的技术，并且在一些畛域获得了显著的成果。比方在视觉畛域，训练数据通常会应用诸如裁剪，翻转，蜿蜒或者色彩变换等办法来裁减。

尽管数据加强办法在视觉畛域成为了训练神经网络模型的一项根本的技术，然而在自然语言解决畛域，这项技术还没有失去很好的利用。

本论文次要钻研了神经机器翻译 (NMT) 中应用词替换进行数据加强的技术，词替换技术通过替换现有的平行语料库句对中的词汇达到数据裁减的目标。在应用数据加强办法时，咱们察看到加强的数据样本如果保留了正确的标签信息，那么就能够无效裁减训练的数据规模，从而晋升模型的成果。这个属性咱们称为 语义一致性（semantic consistency）。

在神经机器翻译零碎中，训练数据是以句对模式存在的，蕴含源端句子和指标端句子。语义一致性要求源端和指标端的句子在各自的语言中都是流畅的且语法正确的，同时还要求指标端句子应该是源端句子的高质量翻译。

现有的词替换办法通常是对源端和指标端句子中的单词进行替换、删除或随机的替换。因为自然语言解决的离散性，这些变换不能放弃语义的一致性，通常它们可能会减弱双语句子的流畅性或者毁坏句对之间的关联性。

咱们能够看一个 案例：

这个例子是英德平行语料库中的一对句子和一些对英文端进行词替换失去的句子。Case 1 和 2 都是有问题的替换形式，前者尽管与替换的词放弃了同样的意思，但在语法上是不正确的，后者尽管语法正确，但和德语句子不是互译的关系了。Case 3 因为是一个语法正确，语义也保持一致，所以是一个好的加强样本。

在生成加强数据的过程中，利用上下文和标签信息能够实现更好的加强成果。咱们引入了条件掩码语言模型(CMLM) 用于机器翻译的数据加强。掩码语言模型能够同时利用句内双向上下文信息，而 CMLM 是它的一个加强版本，它能够利用更多的标签信息。咱们展现了 CMLM 能够通过迫使源端和指标端在进行词替换时放弃语义一致性，从而可能生成更好的替换词散布。

此外，为了加强多样性，咱们联合了软性数据加强（Soft Cotextual Data Augmentation）办法，这个办法应用词表上的一个散布来替换具体的词。

论文中提出的办法在 4 个不同规模的数据集上进行了试验，后果都表明 该办法相比于之前的词替换技术更无效，翻译品质更高。

咱们的指标是改良机器翻译训练中的数据加强办法，使得在加强的过程中，能够保留源句和指标句的语义以及它们之间的跨语言互译关系。

为达到这个指标，咱们引入了 条件掩码语言模型(CMLM)，它能够生成上下文相干的替换词散布，从中咱们能够抉择给定单词最好的代替词。CMLM 模型是 MLM 的一个变种模式，它在预测掩码时会联合标签信息。

在机器翻译场景中，CMLM 遵循两点要求：

预测掩码时会同时以源端和指标端为条件；
在 CMLM 训练时，只会掩蔽源端的局部词或指标端的局部词，但不会同时掩蔽源端和指标端。

理论训练中能够拼接源端和指标端句子，而后随机掩蔽 15% 的源端单词，训练一个 CMLM 去预测掩蔽的源端单词。同样，也能够随机掩蔽 15% 的指标端单词，训练一个的 CMLM 基于拼接的双语句子去预测掩蔽的指标端单词。这种依赖双语信息预测某一端掩蔽词的特点是应用 CMLM 预测词做数据加强可能放弃语义一致性的要害。

当应用上述办法训练好 CMLM 模型后，就能够用来裁减训练用的双语语料了。对于训练的双语语料，掩蔽源端或指标端的某些词，应用 CMLM 预测出可能候选词的散布，而后在散布中采样某个词替换掉对应地位的词。

因为 CMLM 同时联合了源端和指标端的信息，模型预测的词能很好地放弃双语的语义一致性。这种间接替换的办法是比拟费时的，如果须要缩小采样的方差，就须要生成足够多的候选。为了晋升这里的效率，咱们联合了 软性数据加强 的办法。

软性数据加强不采样具体的词，而是依据预测的散布计算在词表上的词向量冀望，应用这种软性的词向量替换实在的词向量示意。软性的词向量示意这样计算：

在神经机器翻译训练中应用 CMLM 做数据加强架构如下图所示。这里有两个独立的 CMLM，别离用来加强源端和指标端。咱们应用预训练的多语言 BERT 初始化 CMLM，应用前述办法进行微调。在翻译模型训练过程中，CMLM 局部参数固定不动，按肯定概率应用 CMLM 生成的软性词向量替换实在的词向量参加机器翻译模型的训练。咱们摸索了不同替换概率对翻译模型品质的影响。

为了验证论文提出的办法的成果，咱们在三个较小规模的数据集：包含 IWSLT2014 德语、西班牙语、希伯来语翻译到英语，及一个较大规模的数据集：WMT14 英语翻译到德语，进行了试验验证。

咱们将此办法与其余几种数据加强办法进行了比拟，包含一些规定的词替换办法，例如单词替换、删除、随机替换，以及两个利用语言模型进行替换的办法。咱们还将论文中的办法与句子级加强办法 mixSeq 进行了比拟。咱们的基线零碎是没有应用任何数据加强的零碎。

为了比照，咱们应用 CMLM 进行了两组数据加强试验：第一组应用前文形容的软性词向量替换的办法，第二种应用传统的采样替换办法，替换词依据 CMLM 的预测采样产生。

两种办法都同时利用到源端和指标端，并且应用雷同的掩码概率 gamma = 0.25，这是咱们发现的最优配置。

试验后果如下图所示：

从表格中的后果能够看出，两种应用 CMLM 做数据加强的办法都显著优于基线零碎，其中 CMLM 软性词向量加强的办法在所有工作上都获得了最优的后果。特地是在 WMT 英译德上获得了 1.9 BLEU 的晋升。

除了在公共语料库上的试验，咱们还将该办法利用到有道翻译的线上零碎中。有道线上翻译零碎（http://fanyi.youdao.com）应用近亿句对语料训练，模型大小靠近 5 亿参数量，并应用了多种优化办法，在多个测试集上优于其余产品。在这样当先的商业机器翻译零碎上，咱们的办法也获得了显著的晋升成果。

自 2007 年推出网易有道词典以来，有道 AI 团队继续多年在机器翻译技术上发力。2017 年推出有道神经网络翻译引擎（YNMT），使得翻译品质失去质的飞跃。

除网易有道词典之外，有道神经网络翻译技术曾经利用于有道翻译官、有道少儿词典、U-Dictionary 等丰盛的学习类工具 App 当中，为不同需要的用户提供高质量、可信赖的翻译和语言学习服务。

除软件外，YNMT 技术也已利用于 有道词典笔、有道智能学习灯、有道 AI 学习机、有道听力宝 等多款智能学习硬件中，并针对硬件产品进行了高性能、低功耗的定制化设计，实现了「毫秒级点查」、「0.5s 指尖查词」等外围性能。

基于自研的 AI 核心技术，联合对学习场景的深刻理解，网易有道曾经开辟学习硬件与工具、素养类课程、大学与职场课程、教育信息化等多种业务，致力于帮忙用户实现高效学习。将来，有道 AI 会持续进行前沿技术的前瞻性钻研，并推动其在产品和实在场景中的落地。

论文全文请见「浏览原文」：
浏览原文

关于人工智能:有道-AI-论文入选-COLING-2022引入条件掩码语言模型用于神经机器翻译数据增强

钻研背景

办法介绍

试验及后果

理论利用