技术编辑:芒果果丨发自 思否编辑部
SegmentFault 思否报道丨公众号:SegmentFault
设想一下,你正在看一部恐怖电影:女主人公高度警觉地穿过光明的地下室,悬疑片的经典音乐在背景中播放,而一些看不见的险恶生物在暗影中蠕动……bang!的一声,它撞到了一个物体。
电影中的音效大部分是前期剪辑的,须要剪辑师将声音与画面完满配合。
最近,钻研人员创立了一个名为 AutoFoley 主动程序,该程序能够剖析视频帧中的静止并创立本人的人造声音成果以匹配场景。在一项考察中,大多数承受考察的人示意他们置信假的声音成果是实在的。
该模型已在发表于 IEEE Transactions on Multimedia 的一项钻研中进行了形容。
应用 AI 模型为 1000 部短片主动配乐
AutoFoley 的独特研究者,德克萨斯大学圣安东尼奥分校的传授 Jeff Prevost 和 他的博士生 Sanchita Ghose 应用 AutoFoley 为 1000 个短片制作了声音,这些短片捕获了许多常见的动作,例如下雨、奔流的马和滴答作响的时钟。
通常,这些声音成果是由录音室中的 Foley 艺术家们前期录制的,他们会应用大量不同物体碰撞、摩擦来发出声音。比方记录破碎玻璃的声音可能须要在录音室中反复的打碎玻璃录制声音,直到声音与视频的剪辑严密匹配为止。
Jeff Prevost 说:“自 1930 年代以来,应用 Foley 艺术在后期制作中增加声音成果始终是电影和电视配乐的简单局部,如果没有真切的 Foley 音轨的可控层,电影将显得空阔而边远。然而,Foley 声音合成的过程因而减少了动静影像的创立工夫和老本。”
出于对自动化 Foley 零碎的想法的趣味,Jeff Prevost 和 Sanchita Ghose 开始着手创立一个多层的机器学习程序。他们创立了两个不同的模型,能够辨认视频中的动作并确定适当的声音。
第一个机器学习模型从疾速挪动的动作剪辑的帧中提取图像特色(例如色彩和静止),以确定适当的声音成果。
第二个模型剖析对象在独自帧中的工夫关系。通过应用关系推理来比拟跨工夫的不同帧,第二个模型能够预测视频中正在产生的动作。
在最初一步中,声音被合成以匹配模型之一预测的流动或静止。
AutoFoley 骗过 73% 受访者
AutoFoley 最适宜产生不须要工夫与视频完满对准的声音(例如,下雨、, 啪作响的声音)。然而,当视觉场景蕴含随工夫变动的随机动作(例如,打字,雷暴)时,该程序与视频不同步的可能性更大。
Jeff Prevost 和 Sanchita Ghose 对当地 57 位大学生进行了考察,让他们分别 AutoFoley 的主动配音,这些参加考察的学生认为,这些片段中蕴含电影原始的配乐。
在评估第一个模型产生的音轨时,承受考察的 73%的学生抉择了合成的 AutoFoley 片段作为原始片段,而不是真正的原始声音片段。在评估第二种模型时,有 66% 的受访者抉择了 AutoFoley 片段而不是原始声音片段。
Jeff Prevost 说:“咱们办法的局限性是要求分类主题呈现在整个视频帧序列中。”他还指出,AutoFoley 以后依赖于 Foley 类别无限的数据集。尽管 AutoFoley 的钻研仍处于晚期阶段,但他们置信这些限度将在将来的钻研中解决。