关于人工智能:网易有道-ASR-团队斩获-Interspeech-2021-算法竞赛两项冠军

在近期举办的 Interspeech 2021 会议上，主办方发展了“非母语儿童语音辨认”的特地会议，并公布专项数据集用于算法评测比赛，旨在推动非母语儿童语音辨认技术的钻研。此次比赛共分为 4 个细分赛道，网易有道 ASR 团队斩获其中 2 项冠军与 1 项亚军。

Interspeech 是由国内语音通信协会（International Speech Communication Association, ISCA）开办的顶级旗舰国内会议，作为寰球最大的综合性语音信号处理畛域的科技盛会，历届 Interspeech 会议都备受寰球各地语音语言畛域人士的宽泛关注

以后，主动语音辨认（ASR）技术曾经在很多场景中失去理论利用，但当利用于特定类型的人群（例如非母语人群和儿童等）的语音数据时，成果仍有较大的可晋升空间。

非母语语音中，几种景象会大大降低传统 ASR 的性能，包含发音谬误的单词、不合语法的发音等；儿童语音则因为生理差别（例如较短的声道长度）、认知差别（例如语言习得）和行为差别（例如习惯性低语）等因素，使得其更具挑战。目前也不足针对非母语和儿童语音的公开数据库。

尽管面临诸多挑战，但在理论利用中，很多语音数据均来自于非母语人士和儿童，例如语言学习等常见场景。钻研针对这两类人群的 ASR 技术，具备十分大的意义和价值。

网易有道 ASR 团队凭借本身的 AI 技术能力，联合在线教育实在场景中的多年深耕实际，在此次“Interspeech 2021- 非母语儿童语音辨认”算法比赛中获得 2 项冠军、1 项亚军的优异成绩：在英文指定数据集和凋谢数据集两个赛道中，网易有道均以辨认准确率更高取得冠军，并在德语指定数据集赛道中取得第二名。

网易有道 ASR 团队采纳了 速度扰动、音量扰动、基频扰动 等多种数据加强办法以扩增数据量，减小不同语音音量差别，同时均衡不同年龄段儿童语音数据的基频变动。模型方面采纳了 传统 Hybrid-NN 模型和端到端 Transformer 模型。其中端到端模型还采纳成人数据进行模型预训练，以帮忙构建儿童语音辨认单元以及训练声学模型。

目前，语音辨认技术曾经广泛应用于网易有道的泛滥产品中，如有道词典、有道精品课、有道少儿英语、有道词典笔等，开辟了明星语音、词典笔跟读绘本、语音答题等理论场景中的性能，给用户带来更加便捷、乏味的体验。

将来，网易有道将持续推动语音辨认等 AI 技术的钻研，联合在线教育实在场景与用户需要，一直用先进技术晋升产品体验，为用户带来更大价值。

– END –