乐趣区

关于算法:云音乐ICASSP2023最新成果

本文作者:成益

《TG-CRITIC: A TIMBRE-GUIDED MODEL FOR REFERENCE-INDEPENDENTSINGING EVALUATION》- 以音色作为领导的无参考歌唱评估算法

论文作者:孙校珩、高月洁、林瀚峣(独特一作)、刘华平,均来自云音乐音视频实验室。

论文下载:https://arxiv.org/abs/2305.09127

论文简介:本文提出一种歌唱评估算法,能够仅依附一段演唱音频作为算法输出,判断歌手演唱程度

  • 算法输出:演唱音频(非 rap 类)
  • 算法输入:好中差三分类 /0- 1 的间断分数
  • 评估尺度:残缺音频 / 一首歌内不同片段的分数变动

对于人类专家来说,即便听到一首齐全生疏的歌曲,也能够从中判断出歌手的演唱程度。在歌唱评估算法中,这类不须要已知旋律线或已有演唱音频作为比照模板的评估办法,称为“无参考”歌唱评估。咱们能够用更相熟的一个词“闭口跪”来形容这种感触。

人声的音色是影响歌唱感知的重要因素。咱们独创的提出了一个音色为领导的歌唱评估模型:TG-Critic。试验结果表明,本模型在大多数状况下都优于现有的最先进模型。

模型的设计过程中引入了三个次要翻新点:1. 首次在模型中显式引入音色信息辅助歌声评估 2. 迁徙高分辨率网络结构解决声谱特色 3. 提出循环主动数据标注升高人工成本

作为目前准确率最高的端到端的算法,歌唱评估将不再依赖人力手工筹备模板物料,且歌手不再须要模拟模板以获取高分,更激励歌手的个性化演绎。相比卡拉 ok 中的传统歌唱评估,有着更加丰盛的应用场景,如歌曲散发、优质歌手开掘、声音社交等。

《TrOMR:Transformer-Based Polyphonic Optical Music Recognition》- 基于 Transformer 的复调图像乐谱辨认算法

论文作者:李宜烜、刘华平、金强、蔡苗苗、李鹏,均来自网易云音乐音视频实验室。

论文下载:https://arxiv.org/pdf/2308.09370.pdf

论文简介 :OMR(图像乐谱辨认)和 OCR(图像文字辨认)对应,目标在于辨认图像中的乐谱。随着深度学习办法的利用,OCR 近年失去了长足的提高,而 OMR 却始终处于钻研利用的初级阶段。针对较简单的乐谱图像,支流的做法更多采纳基于指标检测的形式进行乐谱辨认,整体算法流程绝对繁琐,数据集制作老本高,泛化性较差,对于复调简单乐谱(Polyphonic) 辨认精度差。

为了解决以上问题,本论文提出了端到端图像乐谱辨认算法,次要翻新如下:

1. 首次将 Transformer 引入到乐谱辨认工作中,提出 TrOMR 网络结构,该构造能够预测更长的音符序列,晋升辨认准确率。

2. 将乐谱的标注维度从原来的音符节奏 + 音符时值,拆分为:乐谱符号全局表征 + 乐谱符号部分表征 + 音符音高。这样的拆分形式更利于机器了解和学习。

3. 现有的 OMR 数据集通常应用图像处理办法来模仿实在环境,与理论利用场景存在差别。本文精心设计了一套乐谱图片拍摄的计划,应用手机作为拍照工具,模拟最实在的拍照场景,对明、暗光场景的纸质乐谱进行拍照,以及对显示在显示屏上的乐谱进行拍照。收集了大量的实在数据,心愿能够更好的服务于实在场景。

试验后果证实,以后计划对于音符密集的乐谱有着更高的辨认准确率。

本文公布自网易云音乐技术团队,文章未经受权禁止任何模式的转载。咱们长年招收各类技术岗位,如果你筹备换工作,又恰好喜爱云音乐,那就退出咱们 grp.music-fe(at)corp.netease.com!

退出移动版