共计 1692 个字符,预计需要花费 5 分钟才能阅读完成。
Facebook 明天凋谢了 M2M-100 的源代码,宣称该算法是第一个可能在不依赖英语数据的状况下对 100 中语言进行翻译的算法。
M2M-100 训练了 2200 种语言对,翻译性能的指标上胜过以英语为核心的零碎。
反对 100 种语言翻译,为全新语言创立数据
Facebook 利用反向翻译对低资源语言的数据进行了补充,这种办法包含用一种语言培训模型,并利用它翻译单语数据,以便用另一种语言创立合成的反向翻译数据。例如,如果指标是培训一个中文到法文的翻译模型,Facebook 的钻研人员将培训一个法文到中文的模型,并将所有单语法文数据翻译成中文。在 M2M-100 的开发过程中,Facebook 将合成数据增加到语言开掘中,并为以前未见的语言对创立数据。
M2M-100 基于 XLM-R,Facebook 的多语言模型,能够从一种语言的数据中学习,并用 100 种语言执行工作。
往年 7 月,Facebook 公布了一个反对 51 种不同语言的语音辨认模型。最近,该公司具体介绍了 CRISS 零碎,该零碎从许多不同语言中开掘未标记的数据,从而跨语言开掘句子,并训练出优良的模型。
巴黎 Facebook 人工智能钻研核心的数据科学家 Angela Fan 在一篇博文中写道:“多年来,人工智能钻研人员始终致力于建设一个繁多、通用的模型,可能在不同的工作中了解所有语言。一个反对所有语言、方言和模式的繁多模式将有助于咱们更好地为更多的人服务,放弃最新的翻译,并为数十亿人平等地发明新的体验。”
对于 M2M-100,Facebook 的钻研人员采纳了新鲜的语言辨认技术,从一系列起源中开掘外表上品质更高的数据。一是语言不可知的句子示意(LASER),二是开放源码的工具包,它执行自然语言解决模型的零发射传输。另外两个是 CCMatrix,一个用于培训翻译模型的“十亿规模”双语数据集,以及 ccaleign,一个跨语言 web 文档对的大型汇合。
多语言翻译可解决模型从未见过的语言
多语言机器翻译的指标是建设一个能够在世界上 7000 多种语言之间进行一对一翻译的模型,在类似的语言之间共享信息,这有益于资源匮乏的语言对,并能够将其翻译为该模型从未见过的语言。
想得到能力更强的翻译模型就须要更大的数据集训练,但这些数据集创立起来十分费劲,所以一些钻研人员会将重点放在英语数据集和建模技术上。例如,反对 100 种语言将须要 1000 亿个句子对,然而数据和建模方面的这种偏差并不能反映人们如何应用翻译,并且会导致非英语翻译的性能降落。
相比之下,Facebook 的 M2M-100 在蕴含 100 种不同语言的超过 75 亿个句子的数据集上进行了训练。为了构建它,
Facebook 钻研人员确定了三个规范来领导他们的语言选择,包含来自不同家族的语言,这些语言具备地区多样性,并被宽泛应用。
而后他们把范畴放大到那些有评估数据的我的项目,以便更容易量化模型的性能。最初,在剩下的种语言中,他们排除了那些无奈取得单语数据的语言。
语言分类失去大量数据集
Facebook 的钻研人员防止了那些在统计学上很少须要翻译的对子,比方冰岛语、尼泊尔语、僧伽罗语和爪哇语。钻研人员还引入了一种新的“桥梁开掘策略”,依据分类、地理位置和文化相似性将语言分为 14 个类别。
生存在同一个语言群体中的国家的人们会更常常地交换,并从高质量的翻译中受害。例如,一个印度家庭可能包含一系列在印度应用的语言,如孟加拉语、印度语、马拉地语、尼泊尔语、泰米尔语和乌尔都语。
为了将不同家族的语言分割起来,Facebook 的钻研人员确定了一小部分“桥梁语言”,即每个家族中的一到三种次要语言。例如,印度语、孟加拉语和泰米尔语在数据集中成为了印度 - 雅利安语支的桥接语言。
而后,他们从这些桥接语言的所有可能组合中开掘训练数据,失去了后面提到的 75 亿句数据。
Facebook 示意,M2M-100 曾经在其新闻源上均匀每天解决 200 亿次翻译,并心愿新零碎可能提供更好的后果。
开源人工智能软件的创立是为了帮忙宏大的社交网络以不同的语言更好地向寰球用户提供内容服务。Facebook 的新翻译模型不须要依赖英语作为两头的翻译步骤,能够更好地保留语义。