乐趣区

关于算法:无中生有没有视觉信号的视觉语音增强

编译 | CV 君
报道 | 我爱计算机视觉(微信 id:aicvml)

明天跟大家分享一篇十分有意思也很有用的文章,是 WACV 2021 的录用论文 Visual Speech Enhancement Without A Real Visual Stream。该文钻研波及计算机视觉与语音解决的穿插。

论文信息:

作者来自:印度 IIIT Hyderabad 和英国巴斯大学。

语音加强是语音解决的经典钻研内容,以往的语音加强往往只将语音作为输出信号,这在事实世界的嘈杂环境中往往成果不佳。

近年来一种视觉辅助的语音加强技术获得了冲破,通过跟踪视频中人物口型,能够较好的辅助过滤环境噪声。但其须要人物正脸在视频中,应用场景较为狭隘,毕竟大多数场景下,没有人物正脸,甚至没有视觉信息辅助。

该文学者指出,实际上依据语音进行唇语合成曾经是一个较为成熟的技术,在现有框架下,能够间接应用语音信号自身合成人物口型的视频,进而辅助语音加强。

以下视频展现了最终语音加强的成果:

https://v.qq.com/x/page/y3218…

该文在多个数据集上获得了 SOTA 的后果,并且该技术能够用于任何语言的语音加强,但因为其中含有视觉生成局部,预计相比传统算法工夫开销较大。作者曾经开源了代码,感兴趣的敌人能够试一下。

论文:

https://arxiv.org/abs/2012.10852

代码:

https://github.com/Sindhu-Heg…

退出移动版