共计 1015 个字符,预计需要花费 3 分钟才能阅读完成。
在近期举办的 Interspeech 2021 会议上,主办方发展了“非母语儿童语音辨认”的特地会议,并公布专项数据集用于算法评测比赛,旨在推动非母语儿童语音辨认技术的钻研。此次比赛共分为 4 个细分赛道,网易有道 ASR 团队斩获其中 2 项冠军与 1 项亚军。
Interspeech 是由国内语音通信协会(International Speech Communication Association, ISCA)开办的顶级旗舰国内会议,作为寰球最大的综合性语音信号处理畛域的科技盛会,历届 Interspeech 会议都备受寰球各地语音语言畛域人士的宽泛关注
以后,主动语音辨认(ASR)技术曾经在很多场景中失去理论利用,但当利用于特定类型的人群(例如非母语人群和儿童等)的语音数据时,成果仍有较大的可晋升空间。
非母语语音中,几种景象会大大降低传统 ASR 的性能,包含发音谬误的单词、不合语法的发音等;儿童语音则因为生理差别(例如较短的声道长度)、认知差别(例如语言习得)和行为差别(例如习惯性低语)等因素,使得其更具挑战。目前也不足针对非母语和儿童语音的公开数据库。
尽管面临诸多挑战,但在理论利用中,很多语音数据均来自于非母语人士和儿童,例如语言学习等常见场景。钻研针对这两类人群的 ASR 技术,具备十分大的意义和价值。
网易有道 ASR 团队凭借本身的 AI 技术能力,联合在线教育实在场景中的多年深耕实际,在此次“Interspeech 2021- 非母语儿童语音辨认”算法比赛中获得 2 项冠军、1 项亚军的优异成绩:在英文指定数据集和凋谢数据集两个赛道中,网易有道均以辨认准确率更高取得冠军,并在德语指定数据集赛道中取得第二名。
网易有道 ASR 团队采纳了 速度扰动、音量扰动、基频扰动 等多种数据加强办法以扩增数据量,减小不同语音音量差别,同时均衡不同年龄段儿童语音数据的基频变动。模型方面采纳了 传统 Hybrid-NN 模型和端到端 Transformer 模型。其中端到端模型还采纳成人数据进行模型预训练,以帮忙构建儿童语音辨认单元以及训练声学模型。
目前,语音辨认技术曾经广泛应用于网易有道的泛滥产品中,如有道词典、有道精品课、有道少儿英语、有道词典笔等,开辟了明星语音、词典笔跟读绘本、语音答题等理论场景中的性能,给用户带来更加便捷、乏味的体验。
将来,网易有道将持续推动语音辨认等 AI 技术的钻研,联合在线教育实在场景与用户需要,一直用先进技术晋升产品体验,为用户带来更大价值。
– END –