共计 2397 个字符,预计需要花费 6 分钟才能阅读完成。
HMS Core 机器学习服务文本翻译能力提供多种语言和多种利用场景的翻译服务,比方,在出国游览的场景中,用户能够借助利用的语音翻译播报性能在打车、酒店入住等场景中无障碍沟通,也能够通过拍照翻译性能读懂餐厅菜单、路牌信息等。
中文直译模型让文本翻译能力降级
以后支流的翻译模式大都以语料资源较为丰盛的英文作为两头语言进行“桥接”翻译,然而经英文转移后翻译精度有所损失,且计算资源加倍执行成果升高。为了响应“一带一路”倡导,助力多元凋谢的全球化过程,国内出海利用语种翻译需要明确且要求零碎本地化部署,对局部语言方向如中日、中俄等翻译品质要求较高,同时心愿这些语言方向的翻译成果继续晋升。
基于此,HMS Core 机器学习服务对文本翻译能力进行降级,中日、德、法、俄四国语言的中文直译模型已在新版本中上线。相较于英文桥接翻译, 中文直译模型可实现每秒并发 300 字符,端到端翻译速度小于 150ms,翻译时延升高 100%,翻译速度更快;针对中文特色词、俚语的翻译后果更纯粹,翻译品质更优。降级后的文本翻译能力能够满足中企出海或外企入华等对翻译要求更高场景的需要。
中文直译模型计划还加入了 WMT2021 国内机器翻译大赛子工作(Shared Task: Triangular MT: Using English to improve Russian-to-Chinese machine translation),并以显著的劣势在该工作中取得了第一名。
中文直译和桥接翻译成果比照
法译中
【原文】Smart Launcher est un lanceur pour d’applications Android qui substitue l’interface classique de votre téléphone avec une autre qui est un peu plus simple et qui vous permettra d’accéder à toutes vos applications plus rapidement et plus confortablement.
【英文桥接】智能启动器是一款 Android 应用程序的启动器,它能够用一个简略一点的界面取代手机的经典界面,让你更快、更舒服地拜访所有应用程序。
【中文直译】Smart Launcher 是一款 Android 应用程序启动器,它用另一个更简略的界面取代了手机的经典界面,这将让您更快、更舒服地拜访所有应用程序。
俄译中
【原文】О, да ладно, когда кто-то грубит тебе в коридоре является, без сомнений, самой меньшей из тех проблем, с которыми ты сталкиваешься в старших классах.
【英文桥接】哦,托付,在走廊里有人对你无礼,毫无疑问,是你高中时面临的最不重要的问题。
【中文直译】哦,托付,当有人在走廊里对你无礼无疑是你在高中时遇到的最小的问题。
德译中
【原文】Dieser von klassischen Laufschuhen inspirierte Herren-Sneaker zeichnet sich durch einen Materialmix aus Wildleder und verschiedenen Gewebearten aus und präsentiert sich in der Cruise 2020 Kollektion mit einer neuen Mid-Top-Silhouette, die genau bis zum Knöchel reicht.
【英文桥接】这款男式运动鞋的灵感来自经典跑鞋,采纳麂皮和不同面料的混合,并采纳全新的中帮轮廓,在 2020 年邮轮系列中始终延长到脚踝。
【中文直译】这款男士运动鞋的灵感来自经典跑鞋,采纳麂皮和不同面料的混合材质,在 2020 年邮轮系列中呈现出全新的中帮轮廓,齐全延长到脚踝。
中文直译模型的技术劣势
中文直译模型借助了华为在机器翻译方面的最新研究成果,通过利用俄英、英中语料进行常识蒸馏,在大量或没有俄中语料的状况下,联合显式课程学习训练策略能够失去品质不错的俄中翻译模型,解决了英文桥接翻译零碎的低资源以及冷启动的问题。
中文直译零碎
技术点一:多语言加强策略(Multi-lingual Encoder Decoder Enhancement)
以俄中翻译工作为例,通过多语言模型,引入英中语料并联合常识蒸馏,增强译文侧 decoder 层的解码能力;引入俄英语料增强原文侧 encoder 层编码能力。从而极大水平上解决冷启动问题。
技术点二:课程学习策略(Explicit Curriculum Learning for Denoising)
在训练过程,联合显式的课程学习技巧,依据噪音量划分三阶段增量式训练计划。在第一阶段,应用全量的带噪语料进行训练,使得模型疾速收敛;第二阶段应用双语对齐工具去噪后进行增量训练;第三阶段应用加强后的降噪双语数据进行增量训练,实现模型最终收敛。
技术点三:基于组合解码策略的数据加强计划(FTST For Data Augmentation)
FTST 全称 Forward Translation and Sampling Backward Translation,该技术在 Backward Model 中应用 sampling 的形式进行数据加强;在 Forward Model 中应用 beam search 的形式进行数据平衡。在比照试验中,获得了最好成果。
除了现有的四种语言以外,机器学习服务文本翻译能力打算往年会陆续上线日、法、德、俄、韩、葡、西、土、泰、阿拉伯、马来、意大利、波兰、荷兰、越南语共计 15 国的中文直译模型,根本笼罩中国、亚非拉、欧洲、南美洲等寰球次要国家和地区。
理解更多详情 >>
拜访华为开发者联盟官网
获取开发领导文档
华为挪动服务开源仓库地址:GitHub、Gitee
关注咱们,第一工夫理解 HMS Core 最新技术资讯~