摘要:本文为大家带来InterSpeech2020 语音情感剖析25篇论文中的其中8篇的总结。

本文分享自华为云社区《INTERSPEECH2020 语音情感剖析论文总结一》,原文作者:Tython。

1. Learning Utterance-level Representations with Label Smoothing for Speech Emotion Recognition(INTERSPEECH2020)

(1)数据处理:IEMOCAP四分类,leave-one-speaker-out,unweighted accuracy。openSMILE对短时帧提取147维LLDs特色。

(2)模型办法:采纳LSTM对一句话的多个segment的特色序列建模,输入的特色序列通过NetVLAD进行聚类压缩,由原来的ND的维度降为KD,再对降维后的特色进行softmax分类。在类别标签上,作者采纳标签平滑(label smoothing)策略,即在训练过程中,退出非匹配的(X,y)数据对,也叫作label-dropout(dropping the real labels and replace them with others),并调配一个权值小的标签。以此晋升模型的适应性,缩小过拟合。

(3)NetVLAD源自图像特征提取办法的一种VLAD,通过对图像的特征向量聚类,得聚类核心并做残差,将一个若干部分特色压缩为特定大小全局特色的办法。具体可参考https://zhuanlan.zhihu.com/p/...

(4)试验:NetVLAD可看作一种pooling办法,最初WA达62.6%,高出weighted-pooling2.3个百分点。label smoothing前后的成果别离是59.6%和62%,相差两个百分点。

(5)总结:最大的奉献在于对每个frame的特色进行NetVLAD做相似池化操作,筛选有用特色;另外在训练形式上也引入label smoothing操作,晋升成果两个点。

2. Removing Bias with Residual Mixture of Multi-View Attention for Speech Emotion Recognition(INTERSPEECH2020)

(1)数据处理:IEMOCAP数据四分类,Session1-4训练,Session5测试。特征提取23维的log-Mel filterbank。

(2)模型办法:一个Utterance分成N帧,顺次输出BLSTM(Hidden layer 512 nodes),失去N*1024大小的矩阵,输出第一个Attention layer 1。将该layer的输入合上原始的矩阵一起别离输出三个Attention_i_Layer_2,该三个attention层分别独立并受超参数gama管制。而后将三个输入求和,并输出一个全连贯层(1024 nodes),最初softmax层做分类。

(3)试验:采纳WA,UA作为评估指标,然而文章定义UA谬误,UA的定义理论为WA。而WA的定义也存疑。试验成果UA达80.5%,实为segment-level的Accuracy。并没有通用的句子级的Accuracy,也是评估的一个trick。

(4)总结:论文的翻新次要对通过BLSTM的特色进行多个Attention操作,作为MOMA模块,获得显著的成果晋升。然而该晋升只体现在segment-level的准确率,参考意义不大。

3. Adaptive Domain-Aware Representation Learning for Speech Emotion Recognition

(1)数据处理:IEMOCAP数据四分类,leave-one-speaker-out。STFT汉明窗提取频谱特色,窗长别离为20ms, 40ms,窗移10ms。

(2)模型办法:输出同一频谱图,分成两局部,一部分到Domain-Aware Attention模块(time pooling, channel pooling and fully connected layer, respectively),另一部分至Emotion模块,做time pooling, channel-wise fully connected(各channel别离全连贯)。而后Domain模块输入一个向量,将向量变成对角矩阵,与Emotion模块的输入矩阵相乘,使得畛域信息融入到emotion embedding。最初多任务学习,别离求Domain loss和Emotion loss。这里的Domain并不是指不同畛域的数据,而是指性别、年龄等额定信息。

(3)试验:WA达到73.02%,UA达到65.86%,次要对Happy情绪的分类不精确。相比单任务emotion分类,多任务WA高出3%,WA高出9%。

(4)总结:论文本质上就是多任务学习,以此晋升情绪分类成果。

4. Speech Emotion Recognition with Discriminative Feature Learning

(1)数据处理:IEMOCAP数据四分类,train:validate:test=0.55:0.25:0.2。所有utterance切分或填充到7.5s,提取LLDs特色log-Melfilterbank四十维特色,窗长别离为25ms,窗移10ms。

(2)模型办法:输出语谱图,六个CNN block重头到尾进行卷积,提取特色;之后出入到LSTM序列建模,Attention模块对LSTM的输出进行抉择权重,最初全连贯层再softmax分类。

(3)试验:UA达到62.3%,比baseline的成果低(67.4%),但论文重点在于模型轻(参数量小于360K),计算快。另一个验证Additive margin softmax loss, Focal loss跟attention pooling成果相当,都能达到66%左右。

(4)总结:论文的翻新不在网络结构,而是采纳不同loss的成果。

5. Using Speech Enhancement Preprocessing for Speech Emotion Recognition in Realistic Noisy Conditions

(1)数据处理:IEMOCAP数据人工退出乐音,CHEAVD数据本生存在乐音,因而不必加乐音。

(2)模型办法:本文章是一个语音加强模型。输出带噪频谱,指标是生成污浊语音的频谱以及ideal ratio mask,两头有三层的LSTM层,每层会生成一些频谱特色以及相应的mask。最初一层输入生成的污浊语音频谱和IRM。

(3)试验:前者IEMOCAP数据和WSJ0数据一起用于训练语音加强模型,而后对IEMOCAP的测试集(加乐音后)进行情绪预测。后者语音加强模型首先在1000小时语料上训练好,而后对CHEAVD数据进行加强,加强后的语音用于语音情感辨认。

(4)总结:语音加强模型在含语音情感的数据上训练后,对于带噪的语音情感辨认工作效果显著;在一些低信噪比、低能量和笑声的片段中,语音加强后往往会被扭曲(distorted),SER成果可能会降落。

6. Comparison of glottal source parameter values in emotional vowels

(1)数据处理:日本JAIST录制的语音数据,四个人(两男两女),每人表白4种情绪(怄气、愉悦、中性、悲伤)。发音为元音a。

(2)模型办法:ARX-LF模型,the ARX-LF model has been widely used for representing glottal source waves and vocal tract filter。

(3)试验:对声门音(glottal source)的波形(waveform)剖析,发现悲伤的元音更圆滑而愉悦和怄气的更平缓。统计参数(parameters)Tp, Te, Ta, Ee, F0(1/T0)发现,基频F0对不同情绪差别显著。

(4)总结:偏传统语言情感钻研的方向,钻研声门音对情绪的表白状况,具备探索性,在全面DL的趋势下,难能可贵。后续可对这些数据进行DL建模,兴许是一个方向。然而难度在于声门音的收集与标注,目前的试验数据较为稀少且人工录制,老本高,数据量少。

7. Learning to Recognize Per-rater’s Emotion Perception Using Co-rater Training Strategy with Soft and Hard Labels

(1)数据处理:IEMOCAP数据和NNIME数据,对valence、activation的评分1-5别离划成low/middle/high三个离散类别。特色源自openSMILE的45维特色,含MFCC、F0和响度等。

(2)模型办法:对于每一段音频,每人对它的情绪感知不一样,传统采纳投票机制,抉择众数作为惟一标签。本文采纳不同的策略,对每个人的情感标签进行预测。根本模型是BLSTM-DNN模型,下图中的(a)局部。训练数据的标签分成三局部,一个是每个人的硬标签(惟一),另外两个是除了该指标人的其他人的软标签和硬标签。三类标签数据别离用BLSTM-DNN模型独自训练。而后解冻BLSTM-DNN参数,将各BLSTM-DNN的dense layer层的输入拼接,再叠加三个Dense layers,最初softmax到集体的硬标签。因而预测阶段,每个人有对应的情绪感知,当存在N集体的话,将有N个模型。

(3)硬标签与软标签:对于一段音频,如果三个标注人员的标注后果是[L, L, M],那硬标签就是L,即[1, 0, 0];软标签则是[0.67, 0.33, 0],即三个类别的占比数。

(4)试验:比独自集体的标签建模晋升1-4个百分点,软硬标签的设计有助于晋升SER成果。只需标注指标人物50%的数据,就能获得标注100%的成果。意思是对于新来一个用户,他只需标注IEMOCAP 50%的数据,该模型就能获得他标注100%数据成果。

(5)总结:原理上的确众包的标注有利于揣测集体的标签,然而没有跟其余模型进行比照,不过这也不是本文的重点。

8. Empirical Interpretation of Speech Emotion Perception with Attention Based Model for Speech Emotion Recognition

(1)数据处理:IEMOCAP数据四分类,Session1-4训练,Session5测试。特征提取23维的log-Mel filterbank。

(2)模型办法:一个utterance分成多帧,一份输出BLSTM+Attention模型,另一个输出CNN+Attention模型。而后将两个模型的后果交融。

(3)试验:采纳WA,UA作为评估指标,然而文章定义UA谬误,UA的定义理论为WA。而WA的定义也存疑。试验成果UA达80.1%,实为segment-level的Accuracy。并没有通用的句子级的Accuracy,也是评估的一个trick。

(4)总结:论文就是两个支流模型的后果级交融,创新性不高。晋升只体现在segment-level的准确率,参考意义不大。

点击关注,第一工夫理解华为云陈腐技术~