关于算法:云音乐ICASSP2023最新成果

44次阅读

共计 1439 个字符，预计需要花费 4 分钟才能阅读完成。

本文作者：成益

《TG-CRITIC: A TIMBRE-GUIDED MODEL FOR REFERENCE-INDEPENDENTSINGING EVALUATION》- 以音色作为领导的无参考歌唱评估算法

论文作者：孙校珩、高月洁、林瀚峣（独特一作）、刘华平，均来自云音乐音视频实验室。

论文下载：https://arxiv.org/abs/2305.09127

论文简介：本文提出一种歌唱评估算法，能够仅依附一段演唱音频作为算法输出，判断歌手演唱程度

算法输出：演唱音频（非 rap 类）
算法输入：好中差三分类 /0- 1 的间断分数
评估尺度：残缺音频 / 一首歌内不同片段的分数变动

对于人类专家来说，即便听到一首齐全生疏的歌曲，也能够从中判断出歌手的演唱程度。在歌唱评估算法中，这类不须要已知旋律线或已有演唱音频作为比照模板的评估办法，称为“无参考”歌唱评估。咱们能够用更相熟的一个词“闭口跪”来形容这种感触。

人声的音色是影响歌唱感知的重要因素。咱们独创的提出了一个音色为领导的歌唱评估模型：TG-Critic。试验结果表明，本模型在大多数状况下都优于现有的最先进模型。

模型的设计过程中引入了三个次要翻新点：1. 首次在模型中显式引入音色信息辅助歌声评估 2. 迁徙高分辨率网络结构解决声谱特色 3. 提出循环主动数据标注升高人工成本

作为目前准确率最高的端到端的算法，歌唱评估将不再依赖人力手工筹备模板物料，且歌手不再须要模拟模板以获取高分，更激励歌手的个性化演绎。相比卡拉 ok 中的传统歌唱评估，有着更加丰盛的应用场景，如歌曲散发、优质歌手开掘、声音社交等。

《TrOMR:Transformer-Based Polyphonic Optical Music Recognition》- 基于 Transformer 的复调图像乐谱辨认算法

论文作者：李宜烜、刘华平、金强、蔡苗苗、李鹏，均来自网易云音乐音视频实验室。

论文下载：https://arxiv.org/pdf/2308.09370.pdf

论文简介 ：OMR（图像乐谱辨认）和 OCR（图像文字辨认）对应，目标在于辨认图像中的乐谱。随着深度学习办法的利用，OCR 近年失去了长足的提高，而 OMR 却始终处于钻研利用的初级阶段。针对较简单的乐谱图像，支流的做法更多采纳基于指标检测的形式进行乐谱辨认，整体算法流程绝对繁琐，数据集制作老本高，泛化性较差，对于复调简单乐谱(Polyphonic) 辨认精度差。

为了解决以上问题，本论文提出了端到端图像乐谱辨认算法，次要翻新如下：

1. 首次将 Transformer 引入到乐谱辨认工作中，提出 TrOMR 网络结构，该构造能够预测更长的音符序列，晋升辨认准确率。

2. 将乐谱的标注维度从原来的音符节奏 + 音符时值，拆分为：乐谱符号全局表征 + 乐谱符号部分表征 + 音符音高。这样的拆分形式更利于机器了解和学习。

3. 现有的 OMR 数据集通常应用图像处理办法来模仿实在环境，与理论利用场景存在差别。本文精心设计了一套乐谱图片拍摄的计划，应用手机作为拍照工具，模拟最实在的拍照场景，对明、暗光场景的纸质乐谱进行拍照，以及对显示在显示屏上的乐谱进行拍照。收集了大量的实在数据，心愿能够更好的服务于实在场景。

试验后果证实，以后计划对于音符密集的乐谱有着更高的辨认准确率。