共计 592 个字符,预计需要花费 2 分钟才能阅读完成。
摘要: 声音也是辨认对象的一种重要数据源。其中依据声音来辨认声音所处的环境也是语音辨认的钻研内容之一。
一、思路
1、SoundNet 模型在视频数据中先预训练,视频工作可能是场景辨认,可参考这篇文章 SoundNet: Learning Sound Representations from Unlabeled Video。
2、迁徙学习:5 层的 soundnet 只取前 3 层作为迁徙层,在新数据集中训练时放弃着三层不变,其余两层随机初始化,再训练。
3、在新数据如 IEMOCAP 中 fine-tuning
二、试验数据
三、试验后果
评估指标:AUC
Scratch 示意随机初始化的 SoundNet。
四、总结
1、面对音频数据稀缺,给出了很好的解决思路,可依据 SoundNet 文章中的思路,先从视频数据动手,学习 SoundNet 参数,而后利用到本人的场景中;
2、跨语言迁徙学习:文章中从英语场景迁徙到汉语场景,成果比繁多数据训练晋升很大;
3、YFCC100m、Google AudioSet 可用于预训练模型。
参考文献:
[1] ElShaer M E A, Wisdom S, Mishra T. Transfer Learning From Sound Representations For Anger Detection in Speech[J]. arXiv preprint arXiv:1902.02120, 2019.
点击关注,第一工夫理解华为云陈腐技术~
正文完