关于人工智能:技术实操丨SoundNet迁移学习之由声音分类到语音情感识别

摘要：声音也是辨认对象的一种重要数据源。其中依据声音来辨认声音所处的环境也是语音辨认的钻研内容之一。

一、思路

1、SoundNet模型在视频数据中先预训练，视频工作可能是场景辨认，可参考这篇文章SoundNet: Learning Sound Representations from Unlabeled Video。

2、迁徙学习：5层的soundnet只取前3层作为迁徙层，在新数据集中训练时放弃着三层不变，其余两层随机初始化，再训练。

3、在新数据如IEMOCAP中fine-tuning

二、试验数据

三、试验后果

评估指标：AUC

Scratch示意随机初始化的SoundNet。

四、总结

1、面对音频数据稀缺，给出了很好的解决思路，可依据SoundNet文章中的思路，先从视频数据动手，学习SoundNet参数，而后利用到本人的场景中；

2、跨语言迁徙学习：文章中从英语场景迁徙到汉语场景，成果比繁多数据训练晋升很大；

3、YFCC100m 、Google AudioSet可用于预训练模型。

参考文献：

[1] ElShaer M E A, Wisdom S, Mishra T. Transfer Learning From Sound Representations For Anger Detection in Speech[J]. arXiv preprint arXiv:1902.02120, 2019.

点击关注，第一工夫理解华为云陈腐技术~

关于人工智能:技术实操丨SoundNet迁移学习之由声音分类到语音情感识别

一、思路

二、试验数据

三、试验后果

四、总结

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于人工智能:技术实操丨SoundNet迁移学习之由声音分类到语音情感识别

一、思路

二、试验数据

三、试验后果

四、总结

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复