关于人工智能:技术实操丨SoundNet迁移学习之由声音分类到语音情感识别

35次阅读

共计 592 个字符,预计需要花费 2 分钟才能阅读完成。

摘要: 声音也是辨认对象的一种重要数据源。其中依据声音来辨认声音所处的环境也是语音辨认的钻研内容之一。

一、思路

1、SoundNet 模型在视频数据中先预训练,视频工作可能是场景辨认,可参考这篇文章 SoundNet: Learning Sound Representations from Unlabeled Video。

2、迁徙学习:5 层的 soundnet 只取前 3 层作为迁徙层,在新数据集中训练时放弃着三层不变,其余两层随机初始化,再训练。

3、在新数据如 IEMOCAP 中 fine-tuning

二、试验数据

三、试验后果

评估指标:AUC

Scratch 示意随机初始化的 SoundNet。

四、总结

1、面对音频数据稀缺,给出了很好的解决思路,可依据 SoundNet 文章中的思路,先从视频数据动手,学习 SoundNet 参数,而后利用到本人的场景中;

2、跨语言迁徙学习:文章中从英语场景迁徙到汉语场景,成果比繁多数据训练晋升很大;

3、YFCC100m、Google AudioSet 可用于预训练模型。

参考文献:

[1] ElShaer M E A, Wisdom S, Mishra T. Transfer Learning From Sound Representations For Anger Detection in Speech[J]. arXiv preprint arXiv:1902.02120, 2019.

点击关注,第一工夫理解华为云陈腐技术~

正文完
 0