关于算法:无中生有没有视觉信号的视觉语音增强

编译 | CV君
报道 | 我爱计算机视觉（微信id：aicvml）

明天跟大家分享一篇十分有意思也很有用的文章，是WACV 2021的录用论文Visual Speech Enhancement Without A Real Visual Stream。该文钻研波及计算机视觉与语音解决的穿插。

论文信息：

作者来自：印度 IIIT Hyderabad 和英国巴斯大学。

语音加强是语音解决的经典钻研内容，以往的语音加强往往只将语音作为输出信号，这在事实世界的嘈杂环境中往往成果不佳。

近年来一种视觉辅助的语音加强技术获得了冲破，通过跟踪视频中人物口型，能够较好的辅助过滤环境噪声。但其须要人物正脸在视频中，应用场景较为狭隘，毕竟大多数场景下，没有人物正脸，甚至没有视觉信息辅助。

该文学者指出，实际上依据语音进行唇语合成曾经是一个较为成熟的技术，在现有框架下，能够间接应用语音信号自身合成人物口型的视频，进而辅助语音加强。

以下视频展现了最终语音加强的成果：

https://v.qq.com/x/page/y3218…

该文在多个数据集上获得了SOTA的后果，并且该技术能够用于任何语言的语音加强，但因为其中含有视觉生成局部，预计相比传统算法工夫开销较大。作者曾经开源了代码，感兴趣的敌人能够试一下。

论文：

https://arxiv.org/abs/2012.10852

代码：

https://github.com/Sindhu-Heg…

评论