乐趣区

关于人工智能:AI驱动音乐创新网易数帆X云音乐刷新MIREX世界纪录

在近期揭榜的 2021 国内音频检索评测大赛(MIREX)上,网易数帆易智语音团队携手网易云音乐音视频实验室,凭借生产级 AI 技术创新能力,在歌词辨认和歌单辨认两个赛道大幅突破世界纪录夺得冠军。

MIREX 是国内音频检索畛域的顶尖赛事,采纳参赛者提交模型、验证集公开、测试集不公开的形式,为音频信息检索及音乐信号处理畛域中的各种前沿技术提供公正、可信的评估,自 2005 年启动以来吸引了世界出名大学、钻研机构和科技公司企业的宽泛参加。畛域内出名的团队,如新加坡国立大学、伦敦大学玛丽皇后学院等都曾加入过此项赛事。

大幅刷新世界纪录

MIREX 2021 中,网易数帆携手云音乐团队加入了 Automatic Lyrics Transcription(歌词辨认)和 Set List Identification(歌单辨认)两个赛道的较量,后者工作为针对给定演唱会现场音频和歌手的 studio 歌曲版本,按工夫程序输入演唱会中演唱的歌曲曲目(task1),以及每首曲目标开始和完结工夫(task2)。

在歌词辨认赛道,网易实现了 WER(词错误率,Word Error Rate)从 37.02(2020 年最佳问题)到 11.45 的冲破。于试验而言,这是 2 倍以上的晋升,但对于产品化,这是不可用和可用的微小区别。

歌单辨认赛道则因为畛域技术寂静曾缺席 MIREX 数年,于本届复原并成了网易表演的舞台。如下表所示,网易提交模型的各项指标较往年均有显著晋升,单项指标的差异甚至超过了 12 倍。

验证集历年最佳问题比照:

其中,ED 为 task1 中预测出的 song 序列和 ground truth 的编辑间隔,数值越小越好;sBD 和 eBD 别离为 task2 中预测出的 song 的开始工夫和完结工夫的评估误差,单位秒,也是越小越好。

测试集历年最佳问题比照:

多项翻新晋升模型抗干扰能力

网易数帆易智团队参赛人员介绍,这项赛事的工作与语音辨认不同,歌词辨认赛道的数据集来自国外 K 歌 APP,这意味着训练数据有更嘈杂的背景,更多的乐音烦扰,更低质量的歌词音频,如漏唱、错唱、即兴对白 / 独白等——即使唱词与原始词曲高度吻合,工作复杂度与一般语音辨认仍然不可同日而语,因为背景音乐依然存在,而且同样的词语在不同曲风不同节奏下往往呈现出不同的音高、音调和语速。如此简单的场景,对模型训练带来了微小的挑战,模型必须具备很强的针对背景音乐及乐音的抗干扰能力,能力正确辨认歌词。

针对歌词辨认,网易在数据和模型方面做了大量针对性的优化,基于语音辨认技术计划进行细化,把框架用到极致,采纳预训练语言模型的思维晋升抗干扰能力,并分阶段进行调优,以晋升模型精度,从而大幅刷新世界纪录。

具体而言,在建模时候,先带伴奏的音频信息间接输出模型,尽可能放弃原始信息,再把歌声独自带入模型。针对背景音乐引入多种噪声的 label 建模,同时借鉴风行的预训练语言模型思维,通过 Mask 训练方法来训练声学模型,晋升模型的上下文感知能力和抗干扰能力。针对歌声则采纳分阶段训练调优,把谈话模型当做种子模型,在此基础上应用歌词分阶段进行模型调优。

针对 K 歌数据中歌词可能存在的瑕疵,或多余的信息,如词 / 曲作者信息对歌词而言是多余的,这些内容对模型训练也是一种烦扰,须要有一种办法能将其滤除。为此网易数帆开发了一套主动歌词数据筛选的流程和办法,依附预训练模型的置信度对数据过滤筛选。这也是一个迭代的过程,模型精度在一直的筛选中失去晋升。

针对歌单辨认,业界传统的计划是基于信号处理技术,然而该技术迟迟没有很大的新冲破,这也是该赛道沉寂已久的起因。网易此次将歌词辨认 + 文本检索的计划引入这一畛域,从而获得了飞跃式的晋升。

基于音乐业务的生产级翻新

大幅破纪录并不是全副的后果,网易数帆这套技术计划还具备良好的可扩大能力,在训练数据短缺状况下(较量所用数据集不是很大)会有更好的体现,也能够十分不便地扩大到日韩歌词 / 歌单畛域。事实上,这些技术曾经在网易云音乐业务落地利用。换言之,这是工业界生产级的技术冲破,而非实验室的 AI 学术研究。

多年来,网易云音乐在业务倒退中,始终致力于借助互联网和数字化技术推动中国音乐产业多元化凋敝。平台自 2016 年末上线“网易音乐人”产品服务,到 2021 年年底汇集了超过 40 万原创音乐人。网易云音乐一直改善产品性能和体验,拓展音乐的价值,如社区视频歌曲检索、look 直播等,2020 年就在线上零碎应用了歌词辨认的性能。

《华语乐坛趋势报告(2022)》

在此过程中,网易云音乐也遇到了上述 MIREX 赛道相似的挑战,如不同原创音乐人对同一首歌的演绎,音色、节奏会有差异,甚至歌词也有变动,当然中英文混淆也是常见的情况,这些都是烦扰。因而,网易云音乐与网易数帆易智团队单干,通过这套技术创新来晋升产品体验。

网易云音乐音视频实验室专家介绍,参赛计划中所蕴含的技术在云音乐落地次要收益在于节俭人力老本和晋升业务成果。

节俭人力老本方面,音乐曲库的需要之一是将逐行歌词降级为逐字歌词(如卡拉 OK 成果),技术实现是给每个字加上一个工夫戳,通过歌词辨认技术创新,联合旋律提取做到歌词和旋律边界对齐,节俭了大量的人力。另一个场景是曲库平安,网易云音乐基于歌词辨认技术开发的敏感歌词返检零碎,从而低成本、自动化地将敏感词检测进去。

晋升业务成果方面,一个典型场景是哼唱辨认,网易云音乐通过旋律匹配 + 歌词辨认的技术计划,无效晋升了辨认成果,目前曾经通过 20% 流量灰度上线。其次是将歌单辨认技术计划用于 mlog 的视频识曲,联合音频指纹、翻唱辨认造成对立的识曲计划,针对网易云音乐用户公布在 mlog 的视频,该计划能够无效辨认视频中所唱的歌曲,并匹配曲库中对应的歌曲,从而实现该视频和曲库里的歌曲关联,进而互相引流。此外还有直播利用,基于该技术的 look 直播音频剖析,能够精确辨认出主播所唱的歌曲。

共建模式减速 AI 落地

MIREX 技术成绩的胜利利用,再次验证了网易外部通行的跨 BU 共建模式的胜利,共创共建使得两个团队可能实现优势互补取长补短,并且研发方向更加贴近业务需要,减速落地。

以上述 mlog 视频识曲利用为例,计划中所采纳的音频指纹由网易云音乐音视频实验室研发,也是 MIREX2020 上冲破过来 6 年历史纪录的技术,其特点是速度快、抗噪性强,但无奈辨认不同版本——而这是网易数帆易智团队研发的歌词辨认技术的强项,只有歌词统一就能辨认不同版本。

当然,单靠歌词辨认也解决不了无歌词、各种外语的场景,这就须要网易云音乐翻唱辨认技术的退出,后者可能解决无歌词、外语,但抗噪性差,刚好造成互补。

哼唱辨认的案例中,网易云音乐哼唱辨认技术能解决用户哼唱甚至吹口哨,然而事实是很多时候用户能唱出歌词,只是跑调了,此时引入歌词辨认就能失去更好的成果。

综上,这 4 种各有千秋的识曲技术通过整合造成综合计划,可能大大拓展业务利用场景并获得良好的成果。

共创共建还具备更令人期待的将来,两个团队参赛人员预测,本次大赛中的技术将可能在平安检测、音乐版权检测、音乐内容提供商、传媒行业摸索等场景大放异彩。

退出移动版