关于语言检测:INTERSPEECH2020-语音情感分析论文之我见

摘要： 本文为大家带来 InterSpeech2020 语音情感剖析 25 篇论文中的其中 8 篇的总结。

本文分享自华为云社区《INTERSPEECH2020 语音情感剖析论文总结一》，原文作者：Tython。

（1）数据处理：IEMOCAP 四分类，leave-one-speaker-out，unweighted accuracy。openSMILE 对短时帧提取 147 维 LLDs 特色。

（2）模型办法：采纳 LSTM 对一句话的多个 segment 的特色序列建模，输入的特色序列通过 NetVLAD 进行聚类压缩，由原来的 N D 的维度降为 K D，再对降维后的特色进行 softmax 分类。在类别标签上，作者采纳标签平滑（label smoothing）策略，即在训练过程中，退出非匹配的（X，y）数据对，也叫作 label-dropout（dropping the real labels and replace them with others），并调配一个权值小的标签。以此晋升模型的适应性，缩小过拟合。

（3）NetVLAD 源自图像特征提取办法的一种 VLAD，通过对图像的特征向量聚类，得聚类核心并做残差，将一个若干部分特色压缩为特定大小全局特色的办法。具体可参考 https://zhuanlan.zhihu.com/p/…

（4）试验：NetVLAD 可看作一种 pooling 办法，最初 WA 达 62.6%，高出 weighted-pooling2.3 个百分点。label smoothing 前后的成果别离是 59.6% 和 62%，相差两个百分点。

（5）总结：最大的奉献在于对每个 frame 的特色进行 NetVLAD 做相似池化操作，筛选有用特色；另外在训练形式上也引入 label smoothing 操作，晋升成果两个点。

（1）数据处理：IEMOCAP 数据四分类，Session1- 4 训练，Session5 测试。特征提取 23 维的 log-Mel filterbank。

（2）模型办法：一个 Utterance 分成 N 帧，顺次输出 BLSTM（Hidden layer 512 nodes），失去 N *1024 大小的矩阵，输出第一个 Attention layer 1。将该 layer 的输入合上原始的矩阵一起别离输出三个 Attention_i_Layer_2，该三个 attention 层分别独立并受超参数 gama 管制。而后将三个输入求和，并输出一个全连贯层（1024 nodes），最初 softmax 层做分类。

（3）试验：采纳 WA，UA 作为评估指标，然而文章定义 UA 谬误，UA 的定义理论为 WA。而 WA 的定义也存疑。试验成果 UA 达 80.5%，实为 segment-level 的 Accuracy。并没有通用的句子级的 Accuracy，也是评估的一个 trick。

（4）总结：论文的翻新次要对通过 BLSTM 的特色进行多个 Attention 操作，作为 MOMA 模块，获得显著的成果晋升。然而该晋升只体现在 segment-level 的准确率，参考意义不大。

（1）数据处理：IEMOCAP 数据四分类，leave-one-speaker-out。STFT 汉明窗提取频谱特色，窗长别离为 20ms, 40ms，窗移 10ms。

（2）模型办法：输出同一频谱图，分成两局部，一部分到 Domain-Aware Attention 模块（time pooling, channel pooling and fully connected layer, respectively），另一部分至 Emotion 模块，做 time pooling, channel-wise fully connected(各 channel 别离全连贯)。而后 Domain 模块输入一个向量，将向量变成对角矩阵，与 Emotion 模块的输入矩阵相乘，使得畛域信息融入到 emotion embedding。最初多任务学习，别离求 Domain loss 和 Emotion loss。这里的 Domain 并不是指不同畛域的数据，而是指性别、年龄等额定信息。

（3）试验：WA 达到 73.02%，UA 达到 65.86%，次要对 Happy 情绪的分类不精确。相比单任务 emotion 分类，多任务 WA 高出 3%，WA 高出 9%。

（4）总结：论文本质上就是多任务学习，以此晋升情绪分类成果。

（1）数据处理：IEMOCAP 数据四分类，train:validate:test=0.55:0.25:0.2。所有 utterance 切分或填充到 7.5s，提取 LLDs 特色 log-Melfilterbank 四十维特色，窗长别离为 25ms，窗移 10ms。

（2）模型办法：输出语谱图，六个 CNN block 重头到尾进行卷积，提取特色；之后出入到 LSTM 序列建模，Attention 模块对 LSTM 的输出进行抉择权重，最初全连贯层再 softmax 分类。

（3）试验：UA 达到 62.3%，比 baseline 的成果低（67.4%），但论文重点在于模型轻（参数量小于 360K），计算快。另一个验证 Additive margin softmax loss, Focal loss 跟 attention pooling 成果相当，都能达到 66% 左右。

（4）总结：论文的翻新不在网络结构，而是采纳不同 loss 的成果。

（1）数据处理：IEMOCAP 数据人工退出乐音，CHEAVD 数据本生存在乐音，因而不必加乐音。

（2）模型办法：本文章是一个语音加强模型。输出带噪频谱，指标是生成污浊语音的频谱以及 ideal ratio mask，两头有三层的 LSTM 层，每层会生成一些频谱特色以及相应的 mask。最初一层输入生成的污浊语音频谱和 IRM。

（3）试验：前者 IEMOCAP 数据和 WSJ0 数据一起用于训练语音加强模型，而后对 IEMOCAP 的测试集（加乐音后）进行情绪预测。后者语音加强模型首先在 1000 小时语料上训练好，而后对 CHEAVD 数据进行加强，加强后的语音用于语音情感辨认。

（4）总结：语音加强模型在含语音情感的数据上训练后，对于带噪的语音情感辨认工作效果显著；在一些低信噪比、低能量和笑声的片段中，语音加强后往往会被扭曲（distorted），SER 成果可能会降落。

（1）数据处理：日本 JAIST 录制的语音数据，四个人（两男两女），每人表白 4 种情绪（怄气、愉悦、中性、悲伤）。发音为元音 a。

（2）模型办法：ARX-LF 模型，the ARX-LF model has been widely used for representing glottal source waves and vocal tract filter。

（3）试验：对声门音（glottal source）的波形（waveform）剖析，发现悲伤的元音更圆滑而愉悦和怄气的更平缓。统计参数（parameters）Tp, Te, Ta, Ee, F0(1/T0) 发现，基频 F0 对不同情绪差别显著。

（4）总结：偏传统语言情感钻研的方向，钻研声门音对情绪的表白状况，具备探索性，在全面 DL 的趋势下，难能可贵。后续可对这些数据进行 DL 建模，兴许是一个方向。然而难度在于声门音的收集与标注，目前的试验数据较为稀少且人工录制，老本高，数据量少。

（1）数据处理：IEMOCAP 数据和 NNIME 数据，对 valence、activation 的评分 1 - 5 别离划成 low/middle/high 三个离散类别。特色源自 openSMILE 的 45 维特色，含 MFCC、F0 和响度等。

（2）模型办法：对于每一段音频，每人对它的情绪感知不一样，传统采纳投票机制，抉择众数作为惟一标签。本文采纳不同的策略，对每个人的情感标签进行预测。根本模型是 BLSTM-DNN 模型，下图中的（a）局部。训练数据的标签分成三局部，一个是每个人的硬标签（惟一），另外两个是除了该指标人的其他人的软标签和硬标签。三类标签数据别离用 BLSTM-DNN 模型独自训练。而后解冻 BLSTM-DNN 参数，将各 BLSTM-DNN 的 dense layer 层的输入拼接，再叠加三个 Dense layers，最初 softmax 到集体的硬标签。因而预测阶段，每个人有对应的情绪感知，当存在 N 集体的话，将有 N 个模型。

（3）硬标签与软标签：对于一段音频，如果三个标注人员的标注后果是 [L, L, M]，那硬标签就是 L，即 [1, 0, 0]；软标签则是 [0.67, 0.33, 0]，即三个类别的占比数。

（4）试验：比独自集体的标签建模晋升 1 - 4 个百分点，软硬标签的设计有助于晋升 SER 成果。只需标注指标人物 50% 的数据，就能获得标注 100% 的成果。意思是对于新来一个用户，他只需标注 IEMOCAP 50% 的数据，该模型就能获得他标注 100% 数据成果。

（5）总结：原理上的确众包的标注有利于揣测集体的标签，然而没有跟其余模型进行比照，不过这也不是本文的重点。

（1）数据处理：IEMOCAP 数据四分类，Session1- 4 训练，Session5 测试。特征提取 23 维的 log-Mel filterbank。

（2）模型办法：一个 utterance 分成多帧，一份输出 BLSTM+Attention 模型，另一个输出 CNN+Attention 模型。而后将两个模型的后果交融。

（3）试验：采纳 WA，UA 作为评估指标，然而文章定义 UA 谬误，UA 的定义理论为 WA。而 WA 的定义也存疑。试验成果 UA 达 80.1%，实为 segment-level 的 Accuracy。并没有通用的句子级的 Accuracy，也是评估的一个 trick。

（4）总结：论文就是两个支流模型的后果级交融，创新性不高。晋升只体现在 segment-level 的准确率，参考意义不大。

点击关注，第一工夫理解华为云陈腐技术~

关于语言检测:INTERSPEECH2020-语音情感分析论文之我见

1. Learning Utterance-level Representations with Label Smoothing for Speech Emotion Recognition（INTERSPEECH2020）

2. Removing Bias with Residual Mixture of Multi-View Attention for Speech Emotion Recognition（INTERSPEECH2020）

3. Adaptive Domain-Aware Representation Learning for Speech Emotion Recognition

4. Speech Emotion Recognition with Discriminative Feature Learning

5. Using Speech Enhancement Preprocessing for Speech Emotion Recognition in Realistic Noisy Conditions

6. Comparison of glottal source parameter values in emotional vowels

7. Learning to Recognize Per-rater’s Emotion Perception Using Co-rater Training Strategy with Soft and Hard Labels

8. Empirical Interpretation of Speech Emotion Perception with Attention Based Model for Speech Emotion Recognition