关于数据库:滴滴AI-Labs斩获国际机器翻译大赛中译英方向世界第三

34次阅读

共计 1968 个字符,预计需要花费 5 分钟才能阅读完成。


桔妹导读: 深耕人工智能畛域,致力于摸索 AI 让出行更美妙的滴滴 AI Labs 再次斩获国内大奖,这次获奖的我的项目是什么呢?一起来看看具体报道吧!

近日,由国内计算语言学协会 ACL(The Association for Computational Linguistics)举办的世界最具影响力的机器翻译大赛 WMT2020 公布了所有团队往年提交的 Primary Submission 的后果。通过官网提供的 Reference 数据以及评估脚本,每个参赛队伍能够评估所有参赛队伍的最终 BLEU 问题,滴滴 AI Labs 的 NLP 团队在竞争最强烈的新闻中译英赛道机器评测中胜利斩获世界第三。WMT 是机器翻译畛域认可度最高的国内顶级评测较量,从 2006 年开办至今,每年都会吸引包含微软、Facebook、DeepMind、百度、华为、腾讯、清华大学、上海交通大学、约翰霍普金斯大学、剑桥大学、爱丁堡大学等寰球企业、科研机构以及顶级高校的参加。每次较量都是各家机器翻译实力的大比拼,也见证了行业机器翻译技术的不断进步。

此次滴滴 NLP 团队参加的是 WMT2020 新闻机器翻译赛道(Shared Task: Machine Translation of News)。该赛道共设置了 22 项不同语言之间的翻译工作,其中,中文到英文翻译是竞争最强烈的工作,共吸引了 DeepMind、腾讯、华为、清华大学、上海交通大学等四十多支寰球参赛团队参加,在 6 月 24 日至 6 月 30 日为期七天的较量工夫里,参赛团队累计共提交了近 300 次数据。

与今年不同,往年新闻中译英较量参赛方均为匿名提交,较量期间只能看到本人问题以及其余匿名参赛方问题,并且每个参赛方最多能够提交 7 次翻译后果,较量完结后各参赛方不可再次提交,各参赛方从所有提交中抉择其中一个提交后果作为 Primary Submission 供人工评估应用。

WMT 组委会为每个语言赛道提供指定的双语的训练集以及单语语料。参赛方能够依据本人的模型利用相干的训练集。较量开始后组委会提供的单语的测试集 (Source),参赛方利用本人的模型对测试集的语言进行预测,而后提交至 OCELoT 零碎。组委会利用 SacreBLEU1 指标对参赛方提交的译文与组委会未公开的标准答案 (Reference) 进行计算,分数越高代表翻译成果越好。

在本次中译英赛道中,滴滴 NLP 团队在技术上以 Transformer2 构造作为根底,在结构上引入 Self-Attention, Relative Positional Attention, Larger FFN Size 等变动,利用迭代式回译技术 (Iterative Back-translation) 和交替常识蒸馏 (Alternate Knowledge Distillation) 办法生成高质量的合成语料,联合数据荡涤、数据抉择、模型集成等技术进步翻译品质。思考到翻译话题对于翻译品质的影响,滴滴翻译还采纳了畛域迁徙、话题开掘和个性化加权的形式,使得翻译后果更加个性化。此外,咱们还通过 EDA、权重剪枝等技术加强翻译模型的鲁棒性。最终滴滴翻译高效精确的进行实现 WMT2020 中译英赛道翻译工作,并且最先取得 36.6 的高分,最终取得第三名的问题,充沛彰显了滴滴在机器翻译畛域的技术实力。

目前,滴滴翻译技术曾经广泛应用于国际化 IM 翻译、国际化判责、国际化经营等业务场景。后续滴滴 NLP 团队将一直推动自然语言解决以及滴滴翻译等相干技术的钻研与落地,继续迭代模型,优化响应速度,供更高质量的翻译服务。

References

1. Matt Post. 2018. A call for clarity in reporting BLEU scores. In Proceedings of the Third Conference on Machine Translation: Research Papers, pages 186–191, Belgium, Brussels. Association for Computational Linguistics.

2. Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. 2017. Attention is all you need. In Advances in neural information processing systems, pages 5998–6008.

团队介绍

滴滴 AI Labs NLP 团队关注于自然语言解决、机器翻译、语音实时翻译、语义剖析等畛域,成绩利用于滴滴国际化司乘音讯翻译、内容平安、智能客服等业务。

延长浏览

内容编辑 | Charlotte & Teeo
分割咱们 | DiDiTech@didiglobal.com

滴滴技术 出品

正文完
 0