共计 4581 个字符,预计需要花费 12 分钟才能阅读完成。
摘要: 本文为大家带来 InterSpeech2020 语音情感剖析 25 篇论文中的其中 8 篇的总结。
本文分享自华为云社区《INTERSPEECH2020 语音情感剖析论文总结一》,原文作者:Tython。
1. Learning Utterance-level Representations with Label Smoothing for Speech Emotion Recognition(INTERSPEECH2020)
(1)数据处理:IEMOCAP 四分类,leave-one-speaker-out,unweighted accuracy。openSMILE 对短时帧提取 147 维 LLDs 特色。
(2)模型办法:采纳 LSTM 对一句话的多个 segment 的特色序列建模,输入的特色序列通过 NetVLAD 进行聚类压缩,由原来的 N D 的维度降为 K D,再对降维后的特色进行 softmax 分类。在类别标签上,作者采纳标签平滑(label smoothing)策略,即在训练过程中,退出非匹配的(X,y)数据对,也叫作 label-dropout(dropping the real labels and replace them with others),并调配一个权值小的标签。以此晋升模型的适应性,缩小过拟合。
(3)NetVLAD 源自图像特征提取办法的一种 VLAD,通过对图像的特征向量聚类,得聚类核心并做残差,将一个若干部分特色压缩为特定大小全局特色的办法。具体可参考 https://zhuanlan.zhihu.com/p/…
(4)试验:NetVLAD 可看作一种 pooling 办法,最初 WA 达 62.6%,高出 weighted-pooling2.3 个百分点。label smoothing 前后的成果别离是 59.6% 和 62%,相差两个百分点。
(5)总结:最大的奉献在于对每个 frame 的特色进行 NetVLAD 做相似池化操作,筛选有用特色;另外在训练形式上也引入 label smoothing 操作,晋升成果两个点。
2. Removing Bias with Residual Mixture of Multi-View Attention for Speech Emotion Recognition(INTERSPEECH2020)
(1)数据处理:IEMOCAP 数据四分类,Session1- 4 训练,Session5 测试。特征提取 23 维的 log-Mel filterbank。
(2)模型办法:一个 Utterance 分成 N 帧,顺次输出 BLSTM(Hidden layer 512 nodes),失去 N *1024 大小的矩阵,输出第一个 Attention layer 1。将该 layer 的输入合上原始的矩阵一起别离输出三个 Attention_i_Layer_2,该三个 attention 层分别独立并受超参数 gama 管制。而后将三个输入求和,并输出一个全连贯层(1024 nodes),最初 softmax 层做分类。
(3)试验:采纳 WA,UA 作为评估指标,然而文章定义 UA 谬误,UA 的定义理论为 WA。而 WA 的定义也存疑。试验成果 UA 达 80.5%,实为 segment-level 的 Accuracy。并没有通用的句子级的 Accuracy,也是评估的一个 trick。
(4)总结:论文的翻新次要对通过 BLSTM 的特色进行多个 Attention 操作,作为 MOMA 模块,获得显著的成果晋升。然而该晋升只体现在 segment-level 的准确率,参考意义不大。
3. Adaptive Domain-Aware Representation Learning for Speech Emotion Recognition
(1)数据处理:IEMOCAP 数据四分类,leave-one-speaker-out。STFT 汉明窗提取频谱特色,窗长别离为 20ms, 40ms,窗移 10ms。
(2)模型办法:输出同一频谱图,分成两局部,一部分到 Domain-Aware Attention 模块(time pooling, channel pooling and fully connected layer, respectively),另一部分至 Emotion 模块,做 time pooling, channel-wise fully connected(各 channel 别离全连贯)。而后 Domain 模块输入一个向量,将向量变成对角矩阵,与 Emotion 模块的输入矩阵相乘,使得畛域信息融入到 emotion embedding。最初多任务学习,别离求 Domain loss 和 Emotion loss。这里的 Domain 并不是指不同畛域的数据,而是指性别、年龄等额定信息。
(3)试验:WA 达到 73.02%,UA 达到 65.86%,次要对 Happy 情绪的分类不精确。相比单任务 emotion 分类,多任务 WA 高出 3%,WA 高出 9%。
(4)总结:论文本质上就是多任务学习,以此晋升情绪分类成果。
4. Speech Emotion Recognition with Discriminative Feature Learning
(1)数据处理:IEMOCAP 数据四分类,train:validate:test=0.55:0.25:0.2。所有 utterance 切分或填充到 7.5s,提取 LLDs 特色 log-Melfilterbank 四十维特色,窗长别离为 25ms,窗移 10ms。
(2)模型办法:输出语谱图,六个 CNN block 重头到尾进行卷积,提取特色;之后出入到 LSTM 序列建模,Attention 模块对 LSTM 的输出进行抉择权重,最初全连贯层再 softmax 分类。
(3)试验:UA 达到 62.3%,比 baseline 的成果低(67.4%),但论文重点在于模型轻(参数量小于 360K),计算快。另一个验证 Additive margin softmax loss, Focal loss 跟 attention pooling 成果相当,都能达到 66% 左右。
(4)总结:论文的翻新不在网络结构,而是采纳不同 loss 的成果。
5. Using Speech Enhancement Preprocessing for Speech Emotion Recognition in Realistic Noisy Conditions
(1)数据处理:IEMOCAP 数据人工退出乐音,CHEAVD 数据本生存在乐音,因而不必加乐音。
(2)模型办法:本文章是一个语音加强模型。输出带噪频谱,指标是生成污浊语音的频谱以及 ideal ratio mask,两头有三层的 LSTM 层,每层会生成一些频谱特色以及相应的 mask。最初一层输入生成的污浊语音频谱和 IRM。
(3)试验:前者 IEMOCAP 数据和 WSJ0 数据一起用于训练语音加强模型,而后对 IEMOCAP 的测试集(加乐音后)进行情绪预测。后者语音加强模型首先在 1000 小时语料上训练好,而后对 CHEAVD 数据进行加强,加强后的语音用于语音情感辨认。
(4)总结:语音加强模型在含语音情感的数据上训练后,对于带噪的语音情感辨认工作效果显著;在一些低信噪比、低能量和笑声的片段中,语音加强后往往会被扭曲(distorted),SER 成果可能会降落。
6. Comparison of glottal source parameter values in emotional vowels
(1)数据处理:日本 JAIST 录制的语音数据,四个人(两男两女),每人表白 4 种情绪(怄气、愉悦、中性、悲伤)。发音为元音 a。
(2)模型办法:ARX-LF 模型,the ARX-LF model has been widely used for representing glottal source waves and vocal tract filter。
(3)试验:对声门音(glottal source)的波形(waveform)剖析,发现悲伤的元音更圆滑而愉悦和怄气的更平缓。统计参数(parameters)Tp, Te, Ta, Ee, F0(1/T0) 发现,基频 F0 对不同情绪差别显著。
(4)总结:偏传统语言情感钻研的方向,钻研声门音对情绪的表白状况,具备探索性,在全面 DL 的趋势下,难能可贵。后续可对这些数据进行 DL 建模,兴许是一个方向。然而难度在于声门音的收集与标注,目前的试验数据较为稀少且人工录制,老本高,数据量少。
7. Learning to Recognize Per-rater’s Emotion Perception Using Co-rater Training Strategy with Soft and Hard Labels
(1)数据处理:IEMOCAP 数据和 NNIME 数据,对 valence、activation 的评分 1 - 5 别离划成 low/middle/high 三个离散类别。特色源自 openSMILE 的 45 维特色,含 MFCC、F0 和响度等。
(2)模型办法:对于每一段音频,每人对它的情绪感知不一样,传统采纳投票机制,抉择众数作为惟一标签。本文采纳不同的策略,对每个人的情感标签进行预测。根本模型是 BLSTM-DNN 模型,下图中的(a)局部。训练数据的标签分成三局部,一个是每个人的硬标签(惟一),另外两个是除了该指标人的其他人的软标签和硬标签。三类标签数据别离用 BLSTM-DNN 模型独自训练。而后解冻 BLSTM-DNN 参数,将各 BLSTM-DNN 的 dense layer 层的输入拼接,再叠加三个 Dense layers,最初 softmax 到集体的硬标签。因而预测阶段,每个人有对应的情绪感知,当存在 N 集体的话,将有 N 个模型。
(3)硬标签与软标签:对于一段音频,如果三个标注人员的标注后果是 [L, L, M],那硬标签就是 L,即 [1, 0, 0];软标签则是 [0.67, 0.33, 0],即三个类别的占比数。
(4)试验:比独自集体的标签建模晋升 1 - 4 个百分点,软硬标签的设计有助于晋升 SER 成果。只需标注指标人物 50% 的数据,就能获得标注 100% 的成果。意思是对于新来一个用户,他只需标注 IEMOCAP 50% 的数据,该模型就能获得他标注 100% 数据成果。
(5)总结:原理上的确众包的标注有利于揣测集体的标签,然而没有跟其余模型进行比照,不过这也不是本文的重点。
8. Empirical Interpretation of Speech Emotion Perception with Attention Based Model for Speech Emotion Recognition
(1)数据处理:IEMOCAP 数据四分类,Session1- 4 训练,Session5 测试。特征提取 23 维的 log-Mel filterbank。
(2)模型办法:一个 utterance 分成多帧,一份输出 BLSTM+Attention 模型,另一个输出 CNN+Attention 模型。而后将两个模型的后果交融。
(3)试验:采纳 WA,UA 作为评估指标,然而文章定义 UA 谬误,UA 的定义理论为 WA。而 WA 的定义也存疑。试验成果 UA 达 80.1%,实为 segment-level 的 Accuracy。并没有通用的句子级的 Accuracy,也是评估的一个 trick。
(4)总结:论文就是两个支流模型的后果级交融,创新性不高。晋升只体现在 segment-level 的准确率,参考意义不大。
点击关注,第一工夫理解华为云陈腐技术~