乐趣区

关于人工智能:身体关键点MIDI看手势还原音乐的AI-来啦

如何演奏一首曲子?

首先,你要学会一种乐器,把握各种乐理,再勤加练习,能力演奏出一首好听的音乐。在这个过程中,你很有可能会无数次陷入从入门到放弃的死循环。

近日,麻省理工(MIT)联结沃森人工智能实验室(MIT-IBM Watson AI Lab)共同开发出了一款能够依据演奏手势还原乐曲原声的 AI 模型 Foley Music。

利用计算机拆散对于人类来说难以辨别的声音,通过对演奏者的骨骼关键点的标注与各个局部的速度进行匹配,该模型不仅能够还原钢琴、小提琴、吉他等多种乐器的乐曲原声,还能对音乐的曲调和格调进行编辑。

这项钻研的论文成绩《Foley Music:Learning to Generate Music from Videos》已被 ECCV 2020 收录。

如同为一段舞蹈配乐须要理解肢体动作、舞蹈格调一样,为乐器演奏者配乐,同样须要晓得其手势、动作以及所用乐器。

该钻研的第一作者 Chuang Gan 说:“人体关键点提供了弱小的构造信息。”“咱们在这里应用它来进步 AI 接管和拆散声音的能力。”

AI 会自动识别演奏视频中指标对象的身材关键点以及演奏的乐器和声音。

零碎中的视觉感知模块会提取 25 个身材的 2D 关键点和 21 个手指的 2D 关键点,同时在音频表征模块,钻研人员提出了一种乐器数字化接口(Musical Instrument Digital Interface,简称 MIDI)的音频表征模式,它是 Foley Music 区别于其余模型的要害。

当提取完身材关键点、乐器和声音两项指标的信息后,视 - 听模块(Visual-Audio Model)会将所有的信息进行整合并转化,生成最终相匹配的音乐。


零碎会自动识别演奏视频中指标对象的身材关键点以及演奏的乐器和声音

起源:ECCV 2020

在这个我的项目中,钻研人员曾经利用同步音视频轨道来重现人类的学习形式。通过多种感官模式进行训练的 AI 零碎可能以绝对较少的数据来更快地学习。

该钻研的另一作者,麻省理工学院传授 Antonio Torralba 说:“多传感器解决是能够执行更简单工作的嵌入式智能和 AI 零碎的先驱。”

Foley Music 模型的零碎次要由视觉编码(Visual Encoder),MIDI 解码(MIDI Decoder)和 MIDI 波形图输入(MIDI Output)三个局部形成。


模型架构的概述,起源:ECCV 2020

首先,Visual Encoder 会从视频帧中提取要害坐标点,将视觉信息进行编码化解决,并应用 GCN(Graph-CNN)捕捉人体动静随工夫变动产生的潜在示意。

MIDI Decoder 接管到 Visual Encoder 的编码信息后,通过 Graph-Transfomers 对人体姿势特色和 MIDI 事件之间的相关性进行建模。最初,MIDI Output 应用规范音频合成器将 MIDI 事件转换为最终的波形,整个“还原”过程最终得以实现。

在试验中,钻研人员抉择了三个数据集对 Foley Music 进行了训练。

URMP,一个高质量的多乐器视频语料库,为每个录制的视频提供了 MIDI 文件;AtinPiano,即钢琴视频录制,拍摄角度为仰视,能够看到键盘和演奏者的手;MUSIC,是一个未经整顿视频数据集。

数据中的乐器则包含风琴,贝斯,巴松管,大提琴,吉他,钢琴,大号,夏威夷四弦琴和小提琴,其视频长度均为 6 秒。

在比照试验中,钻研人员使 Foley Music 与 GAN-based、SampleRNN 和 WaveNet 三种模型进行了比照评估。比照的三个维度别离为正确性(生成的歌曲与视频内容之间的相关性)、乐音(乐音最小)和同步性(歌曲在工夫上与视频内容最统一)。

从下图的定量分析数据后果中能够看出,Foley Music 模型在各项指标上的性能体现远远超过了其余模型。

钻研人员发现,MIDI 事件有助于改善声音品质、语义对齐和工夫同步。这使得 Foley Music 模型与其余零碎相比,还原的音乐很难与实在录音辨别开。


正确性、最小噪声和同步性方面的评估后果

起源:ECCV 2020

“结果表明,通过身材关键点和 MIDI 能够很好地建设视觉和听觉之间的分割。咱们的框架还能够扩大,即通过 MIDI 事件生成不同格调的音乐。”

论文中写道,“咱们的工作将为应用身材关键点和 MIDI 事件钻研视频和音乐之间的分割拓展了路线。”

参考:

1.http://foley-music.csail.mit….

2.https://venturebeat.com/2020/…

3.https://tech.ifeng.com/c/7yNG…

4.https://news.mit.edu/2020/mus…

退出移动版