共计 2131 个字符,预计需要花费 6 分钟才能阅读完成。
文章起源 | 恒源云社区
原文地址 | 低资源机器翻译综述
原文作者 | 角灰
摘要
神经机器翻译成果十分好,但须要大量的平行语料,因而有了低资源翻译的钻研。
本文依照按数据的利用对低资源翻译分为 3 类:
- 利用单语数据
- 利用辅助语言
- 利用多模态数据
论断和将来方向
目前还有如下凋谢问题:
- 在多语言迁徙学习中,尚不晓得应该用多少语言、哪些语言。
- 在迁徙学习中如何解决未见过语言的词表
- 如何高效抉择数轴语言
- 双语词典十分有用且易得,目前的钻研次要用在源语言和目标语言上,如何用在多语言迁徙学习中的低资源和辅助语言上
- 思考到多模态数据,语音有晋升翻译性能的后劲,同时也有许多限度,比方有同音异字
- 目前在低资源翻译上取得成功的办法,或者有大量单语语料,或者有类似的富资源语言。如果两个都没有怎么办,如阿迪格语和锡伯语。
2. 利用单语数据
2.1 回译、前向翻译
回译:用 tgt2src 的反向翻译模型将目标语言的单语语料 t 转换为源语言,从而失去伪平行数据 Bp(tgt2src(t),t)。
前向翻译:相同,用 src2tgt 的正向翻译模型将源语言的单语语料 s 转换为目标语言,从而失去伪平行数据 Bp’(s, src2tgt(s))。
将产生的伪数据 Bp, Bp’和真的平行语料 Dp 混合后训练正向模型有助于性能晋升。
除了应用术搜寻生成伪数据外,还有许多办法:
(1)依据输入概率分布随机采样
(2)在源语言增加噪声,再联合术搜寻生成
(3)对术搜寻生成的句子事后增加标签
随机采样和加噪声只在富资源语言上见效,而第三种预增加标签在富、低资源翻译上都体现最好。除此之外,在低资源翻译上,将目标语言拷贝到源语言也能进一步晋升翻译品质。
2.2 双向联结训练
(1)思考到源语言和目标语言都很稀缺的状况,能够应用对偶学习,将源语言 x 经前向模型失去 y’, 再输出反向模型回译成 x’, 优化 x 和 x’的重建损失。前面有人提出 multi-agent 进一步晋升对偶学习。,
(2)直观上,更好的回译模型带来更好的伪数据,从而训练出更好的翻译零碎。应用迭代回译能够反复执行回译、训练的过程,从而使模型生成越来越高质量的句子,失去更好的 NMT 零碎,流程如下图:
2.3 无监督 NMT
为解决零资源翻译的场景,罕用的步骤蕴含两个局部:
(1)双语对齐,使模型能对齐两种语言:
a. 双语词嵌入
b. 降噪自编码器
c. 无监督统计机器翻译
d. 语言模型预训练
(2)翻译晋升,通过迭代学习晋升翻译品质:
a. 迭代回译,见 2.2
b. 过滤低质量的伪数据
c.Loss 种加正则,避免训练时忘记双语嵌入
d. 同时用统计、神经机器翻译模型进行回译
2.4 语言模型预训练
预训练语言模型能晋升对语言的了解和生成能力,而 NMT 同时须要这两种能力,按是否联结训练编码器和解码器分为两类:
(1)拆散训练:如 XLM
(2)联结训练:如 MASS,Bart,T5
2.5 利用类似语料
类似语料即波及雷同实体的不同语言单语语料,能够从中开掘隐含的平行语料。如 LASER。
2.6 利用双语词典加强
(1)用于罕见词翻译
(2)逐词翻译
(3)基于词典,放大源语言和目标语言之间嵌入空间的差距
2.7 小结
以上办法能够组合应用,如回译和联结训练
3. 利用辅助语言
3.1 多语言训练:
低资源语言对与其余语言对在一个模型中联结训练
长处:
(1)较训练多个模型,多语言训练显著升高训练工夫,且容易保护
(2)低资源语言能够受害于富资源语言
(3)多语言模型有后劲做到零资源翻译
相干工作可被分为:
(1)参数共享(不共享、全副共享、局部共享)
(2)针对低资源语言的设计
a. 辅助语言选择,尽量抉择同一语系的富资源语言
b. 训练样本均衡,用基于温度的办法均衡富、低资源语言,使得模型不再偏好富资源语言
c. 辅助语言词重排序:事后对辅助语言重排词的程序再进行翻译
d. 辅助语言的单语数据: 用回译、跨语言预训练、元学习、无监督等办法晋升低资源语言模型
(3)零资源翻译
假如模型学过 x 和英文的双向翻译,y 和英文的双向翻译,即便模型没见过 x 和 y 的平行语料,模型也能进行 x 和 y 的双向翻译。
3.2 迁徙学习:
即先训练通常蕴含富资源语言对的父母 NMT 模型,而后微调低资源语言对。
共享词汇表不适用于将事后训练的父模型迁徙到词汇表中有未见过文字的语言。为了解决这一问题,Kim 等人提出学习未见语言和双语父模型的嵌入的跨语言线性映射。
3.3 枢轴翻译:
抉择一种或多种枢轴语言作为源语言和目标语言之间的桥梁,利用源 - 枢轴和枢轴 - 指标数据来帮忙源目标语言的翻译。有如下三种形式:
(1)间接联合源 - 枢轴和枢轴 - 指标模型,一一翻译
(2)应用源 - 枢轴和枢轴 - 指标模型生成伪数据,用来训练源 - 指标模型
(3)应用源 - 枢轴和枢轴 - 指标模型的参数,进行从源到目标语言的迁徙学习
4. 利用多模态数据
目前,图像 - 文本并行数据在 NMT 上的利用是无限的,因为这种图像 - 文本数据对于低资源语言来说总是很难收集。建设新的图像 - 文本数据集的一个可能的数据源是网站上的图像和相应的题目。
对于只有语音而没有文本的语言,能够利用语音数据来进行翻译。
5. 数据集
集体总结
接下来我能够针对迁徙学习的词表映射、多语言模型的局部参数共享、对偶学习、元学习这几个方面持续研读。
参考
A Survey on Low-Resource Neural Machine Translation