文章起源 | 恒源云社区(一个专一 AI 行业的共享算力平台恒源智享云 )
原文地址 | [[机器翻译] 21.7 mRASP2](https://bbs.gpushare.com/topi…)
原文作者 | 角灰
Contrastive Learning for Many-to-many Multilingual Neural Machine Translation
github:
摘要:
现有的多语言模型聚焦于英语为核心的翻译,而非英语的方向远远落后。本文旨在一个多对多翻译零碎,重点是非英语语言方向的品质。基于这样一个假如: 通用的跨语言示意会导致更好的多语言翻译性能。为此提出了一种训练方法 mRASP2,以取得繁多对立的多语言翻译模型。mRASP2 的外围在于如下两点:
- 通过比照学习拉近多语言示意对齐语义空间
- 同时应用平行和单语语料进行对齐加强
论断:
- 比照学习的确能晋升零资源翻译
- 应用单语数据,所有翻译方向上都获得了实质性的改良。
- 剖析并可视化了本文办法,比照学习的确可能拉近不同语言语义的表征
- 将来打算应用更大数据集训练模型 PC150
办法:
1. 损失函数
损失为穿插熵 Lce 和比照损失 Lctr 的加权和,|s| 是均匀句子长度,因为 Lce 是词级别的,而 Lctr 是序列级别的,两者有比例关系,因而要乘上均匀句子长度。
xi,xj 是平行语料。Lce 计算惯例 decoder 输入和 label 的穿插熵,旨在让解码器输入散布与实在散布统一。
而比照损失 Lctr 为了拉近语义空间中跨语言同义词的表征间隔,并且拉远非同义词表征的间隔。具体为:以某个样本点的源端向量示意为锚点,以该样本指标端的向量表征为正样本(过 encoder),以同一个 batch 中其余样本点的指标端句子向量示意为负样本,最小化锚点和正样本的间隔,最大化锚点和所以负样本的间隔。
[
其中间隔应用的是余弦间隔,分子是锚点和正例的间隔,分母是所有负例和锚点的间隔和,通过最小化 Lctr 就能达到拉近同义词表征、拉远非同义词表征的目标。
引入比照学习,能够在不升高其余翻译方向的根底上,进步零资源翻译的性能。
2. 对齐加强
其中间隔应用的是余弦间隔,分子是锚点和正例的间隔,分母是所有负例和锚点的间隔和,通过最小化 Lctr 就能达到拉近同义词表征、拉远非同义词表征的目标。
试验后果
相比多语言基线模型 m -Transformer,mRASP2 在表中的 10 个方向上都有显著的晋升。
在无监督翻译(至多一端的语料在预训练时呈现过)上均匀超过了基线十多点。
即便是在零资源翻译(非英语对翻译)上性能也很卓越,和桥接模型差不多(pivot)。
可视化剖析
应用 T -SNE 对英、日、德三种语言同义句的语义空间表征降维后可视化,发现应用 mRASP(b)比基线 transformer 更好的拉近了多语言同义句的语义表征。
集体总结
比照学习 yyds,接下来筹备找代码试试。