关于语音:恒源云语音识别与语义处理领域之机器翻译-217-mRASP2

文章起源 | 恒源云社区（一个专一 AI 行业的共享算力平台恒源智享云)

原文地址 | [[机器翻译] 21.7 mRASP2](https://bbs.gpushare.com/topi...)

原文作者 | 角灰

Contrastive Learning for Many-to-many Multilingual Neural Machine Translation
github:

摘要：

现有的多语言模型聚焦于英语为核心的翻译，而非英语的方向远远落后。本文旨在一个多对多翻译零碎，重点是非英语语言方向的品质。基于这样一个假如:通用的跨语言示意会导致更好的多语言翻译性能。为此提出了一种训练方法mRASP2，以取得繁多对立的多语言翻译模型。mRASP2的外围在于如下两点：

通过比照学习拉近多语言示意对齐语义空间
同时应用平行和单语语料进行对齐加强

论断：

比照学习的确能晋升零资源翻译
应用单语数据，所有翻译方向上都获得了实质性的改良。
剖析并可视化了本文办法，比照学习的确可能拉近不同语言语义的表征
将来打算应用更大数据集训练模型PC150

办法：

1.损失函数

损失为穿插熵Lce和比照损失Lctr的加权和,|s|是均匀句子长度，因为Lce是词级别的，而Lctr是序列级别的，两者有比例关系，因而要乘上均匀句子长度。

xi,xj是平行语料。Lce计算惯例decoder输入和label的穿插熵，旨在让解码器输入散布与实在散布统一。

而比照损失Lctr为了拉近语义空间中跨语言同义词的表征间隔，并且拉远非同义词表征的间隔。具体为：以某个样本点的源端向量示意为锚点，以该样本指标端的向量表征为正样本（过encoder），以同一个batch中其余样本点的指标端句子向量示意为负样本，最小化锚点和正样本的间隔，最大化锚点和所以负样本的间隔。
[

其中间隔应用的是余弦间隔，分子是锚点和正例的间隔，分母是所有负例和锚点的间隔和，通过最小化Lctr就能达到拉近同义词表征、拉远非同义词表征的目标。

引入比照学习，能够在不升高其余翻译方向的根底上，进步零资源翻译的性能。

2.对齐加强

试验后果

相比多语言基线模型m-Transformer，mRASP2在表中的10个方向上都有显著的晋升。

在无监督翻译（至多一端的语料在预训练时呈现过）上均匀超过了基线十多点。

即便是在零资源翻译（非英语对翻译）上性能也很卓越，和桥接模型差不多（pivot）。

可视化剖析

应用T-SNE对英、日、德三种语言同义句的语义空间表征降维后可视化，发现应用mRASP（b）比基线transformer更好的拉近了多语言同义句的语义表征。

摘要：

论断：

办法：

1.损失函数

2.对齐加强

试验后果

可视化剖析

集体总结