关于语音:AI为啥能读懂说话人的情感

11次阅读

共计 5788 个字符,预计需要花费 15 分钟才能阅读完成。

摘要:本文介绍了语音情感辨认畛域的倒退现状,挑战,重点介绍了解决标注数据不足的问题。

本文分享自华为云社区《语音情感辨认的利用和挑战》,作者:SSIL_SZT_ZS。

情感在人与人的交换中扮演者重要的角色。情感辨认具备极大的利用价值,胜利的检测人的情感状态对于社交机器人、医疗、教育品质评估和一些其余的人机交互零碎都有着重要意义。本文的要点有:

1、情感辨认的基础知识和利用场景。
2、语音情感辨认技术的介绍以及面临的挑战。
3、如何解决数据不足问题,咱们的计划是什么。

1. 什么是情感辨认?

情感是人对外部事件或对话流动的态度。人的情感个别分为:快乐、怄气、悲伤、恐怖和惊喜等。机器对采集的信号进行剖析,从而失去人的情感状态,这一过程就是情感辨认。通常,能用来进行情绪辨认的信号包含两个方面,一个是生理信号如呼吸、心率和体温,另一个是行为表现包含面部表情、语音和姿势等等。人脸与语音得益于简略的采集形式,常常被用来辨认对象的情感。情感辨认能帮忙零碎理解对象的情感状态以及其对某个话题或事务的态度。

在人工智能(AI)产品和人的交互过程中,如果可能精确地把握人以后的情感状态,依据情感状态做出回应,能够极大地晋升用户对 AI 产品的体验。这在商品举荐,舆论监控,人机对话等方面都有着重要的意义。例如,在销售过程中,理解用户对商品的满意度,能够帮忙平台制订更好的销售策略;在影视行业,理解观众对节目的喜怒哀乐,能帮忙制订更精彩的剧情以及安顿特定节目的上线工夫;在人机对话中,把握人的情感状态能够帮忙智能机器人做出失当的回复,并适时地表白安抚和体谅,晋升用户体验;在舆论方面,行政部门通过理解大众对热门事件的情感偏向、把握舆论导向,从而更及时无效的进行舆情监控,为制订政策提供反对。情感辨认还能利用于许多事实的场景中。情感辨认算法具备很高的钻研价值。

思考到采集难度、隐衷等因素,本文的工作聚焦于应用语音来辨认谈话人情感的语音情感辨认(SpeechEmotionRecognition,SER)工作。

2. 语音情感辨认技术介绍

语音是日常生活中交换的次要媒介,它不仅传播了思维,还表白了谈话人的情感状态。语音情感辨认的指标是从语音中辨认出人类的情感状态。其次要蕴含两个步骤:特征提取与分类器构建。

音频信号输出是近似间断的数值。提取音频特色通常首先对音频进行分帧,加窗,进行短时傅里叶变换(STFT)。而后失去了维度为 T\timesDT×D 的频谱特色,其中 TT 示意帧数与工夫长度相干,DD 是特色维度,每个维度对应不同的频率。有一些工作也会对此频谱进行一些 mel 滤波操作。

频谱特色蕴含丰盛的信息,比方谈话内容、节奏、语气、语调等等。与情感相干的语音特征提取依然是一个尚未成熟钻研方向。深度学习的呈现简化了人工特色提出过程,应用数据驱动的办法,利用情感标签作为监督信号来训练深度模型提取与情感相干的隐含语义特色。因为音频输出的序列化特点,深度特征提取通常也有基于 CNN/GRU/LSTM 办法,或者基于 CRNN 或 CNN+Attention 的办法。

传统的机器学习办法能够基于人工语音特色或者深度语音特色构建分类器,例如高斯混合模型(GMM),隐马尔科夫模型(HMM), 反对向量机(SVM)等经典办法。此外,得益于深度学习的倒退,基于神经网络的分类器能够与深度特征提取器一起端到端(end-to-end)训练,失去情感分类器。

3. 语音情感辨认面临的挑战

咱们后面介绍了语音情感剖析中罕用的办法,但语音情感辨认在理论中也面临着一些挑战:

  • 情感主观性与模糊性问题:语音情感辨认是一个比拟年老的畛域,在情感定义上不足官网规范。不同听者对同一段语音的情感可能有不同的观点。此外,一段语音往往有情感变动,主观性较强,导致许多钻研工作没有普适性。
  • 情感特征提取和抉择问题:语音谈话人各种各样,情感类别多变,语音片段长短不一等,这些问题导致人工设计特色无奈涵盖全副情感信息。另一方面,深度特色尽管成果好,但不具备可解释性。
  • 标注数据不足问题:深度学习办法获得很好的性能要求大量的高质量的标注数据。因为情感的主观性与模糊性,标注语音情感十分费时费力,同时要求大量业余人员。收集大量情感标注数据,是语音情感辨认畛域亟需解决的问题。

4. 如何解决数据不足的问题?

数据是深度学习的驱动力,大规模高质量的数据是深度学习取得成功的要害。然而,在很多理论问题中,因为标注代价问题,只存在大量的标注数据,这重大限度深度学习办法的倒退。随着互联网社交平台的倒退,每天都回生产大量的多媒体数据,大规模无标注的数据很容易取得。这就促成了能同时应用标注数据和无标注数据的半监督学习(Semi-SupervisedLearning)办法的倒退。另一方面,多媒体数据通常状况下都蕴含多个模态,因而也有一些工作摸索利用一个模态的标注常识去增强在另一个模态上的工作的成果。上面介绍这两种办法。

4.1 半监督学习

半监督学习个别有两个数据集,一个小规模的有标注数据集,一个大规模的无标注数据集。其目标是利用无标注数据来加强,监督学习的成果。经典半监督学习办法蕴含很多类别,例如 self-training(自训练算法),generativemodels(生成模型),SVMs(半监督反对向量机),graph-basedmethods(图论办法),multiviewlearing(多视角算法)等等。上面介绍几类次要半监督学习办法。

  • 简略自训练算法(self-training)
    self-training 算法的步骤为:(1)首先利用标注训练集数据训练分类器;(2)利用分类器对无标注数据进行分类,并计算误差;(3)抉择分类后果中误差较小的样本,将分类后果作为其标签,退出到训练集。循环次训练过程,直到所有的无标注数据被标注。
  • 多视角学习(multiviewlearing)
    这是 self-training 算法的一种。其假如每个数据能够从不同的角度进行分类。算法步骤如下:(1)在角度用标注数据集训练出不同的分类器;(2)用这些分类器从不同的角度对无标注数据进行分类;(3)依据多个分类后果来选出可信的无标签样本退出训练集。循环后面的训练过程。此办法的长处是不同角度的预测后果能够互相补充,从而进步分类精度。
  • 标签流传算法(LabelPropagationAlgorithm)
    标签流传算法是一种基于图的半监督算法,通过结构图构造来找无标签数据和有标签数据之间的关系,而后通过这个关系来进行标签流传。
    在深度学习上的半监督学习办法,叫做半监督深度学习。半监督深度学习次要包含三类:Fine-tune; 基于深度学习的 self-training 算法;半监督的形式训练神经网络。

Fine-tune 形式,利用无标签数据训练网络(重构自编码或基于伪标签训练),而后应用有标签数据在指标工作上进行微调。

基于深度学习办法的 self-training, 根本的步骤:(1)利用有标注数据训练深度模型;(2)利用深度模型作为分类器或者利用深度特色对无标签数据进行分类;(3)抉择执行度高的退出有标签训练集,反复此过程。

半监督的办法训练深度网络蕴含许多技术,例如 Pseudo-Label[1],LadderNetworks[2],TemporalEnsembling[3],Meanteachers[4]还有 FixMatch 等等。上面咱们介绍几个次要的工作。

1.Pseudo-Label 办法 [1]
此办法将网络对无标签数据的预测后果,作为无标签数据的标签,来训练网络。办法尽管简略,成果却很好。从下图咱们能够看出,加了无标签数据之后,同一个类别的数据点汇集得更笼了。

2.TemporalEnsembling[3]
TemporalEnsembling 是 Pseudo-Label 办法的倒退。其指标是结构更好的伪标签。下图给出了此办法的结构图,此办法有两种不同的实现,即 ππ-model 和 temporalensembling。

ππ-model 的无监督代价是对同一个输出在不同的正则或数据加强的条件下模型输出应具备一致性,这样能够激励网络学习数据外部的不变性。
Temporalensembling 对每一次迭代的预测 z_izi​进行挪动均匀得个 \hat{z_i}zi​^​作为无监督训练的监督信号。

3.Meanteacher[4]
Meanteacher 办法另辟蹊径,从模型的角度进步伪标签品质,其奉行“均匀的就是最好的”准则。对每次迭代之后的 student 模型参数进行挪动均匀(weight-averaged)失去 teacher 模型, 而后用 teacher 模型来结构高质量的伪标签,来监督 student 模型的无标签 loss。

4.FixMatch[5]
FixMatch 发挥了 TemporalEnsembling 办法中的一致性正则化(consistencyregularization)准则,即同一个样本的不同增广,模型应该失去统一的后果,从而学习数据外部的不变性。因而 FixMatch 办法利用弱增广的样本生成一个伪标签,利用此伪标签来监督模型对强增广样本的输入。

4.2 跨模态常识迁徙

跨模态常识迁徙基于多媒体数据中各个模态之间的内在联系,将标注信息由一个模态向指标模态迁徙从而实现数据标注。如下图所示,跨模态常识迁徙包含视觉到语音的迁徙,文本到图像的迁徙等等。上面介绍几种经典的跨模态常识迁徙工作。

1. 基于跨媒体迁徙的图像情感剖析 [6]
此办法利用推特上成对的文本图像数据,实现图像情感剖析工作,具体步骤如下图。

其应用训练好的文本情感分类器,对文本进行情感分类,而后将标签间接给对应的图片。而后应用具备伪标注的图片训练图片情感分类器。

2.SoundNet[7]

通过预训练的视频对象和场景辨认网络实现从视觉模态到语音模态的常识迁徙,利用迁徙的标签训练语音模型,实现语音场景或语音对象分类。

3.EmotionRecognitioninSpeechusingCross-ModalTransferintheWild[8]

此办法利用预训练好的人脸情感辨认模型作为 teacher 模型,而后利用 teacher 模型的预测后果来训练语音情感辨认模型。

5. 咱们的语音情感辨认计划

这一节将介绍咱们解决标注数据不足的计划。

联结跨模态常识迁徙与半监督学习办法

为了解决语音情感辨认畛域数据不足的问题,咱们在 2021 年提出了联结跨模态常识迁徙与半监督学习的架构,该办法在 CH-SMIS 以及 IEMOCAP 数据集上获得了语音情感辨认工作以后最优的后果,同时咱们将此工作发表在 SCI 一区期刊 knowledge-basedsystem 上发表论文 Combiningcross-modalknowledgetransferandsemi-supervisedlearningforspeechemotionrecognition。上面是咱们的计划的架构图:

咱们的计划基于两个察看:

  1. 间接跨模态标签迁徙存在误差,因为人脸情感与语音语音情感之间的关系十分复杂,并不是完全一致。
  2. 半监督学习办法,标注数据很少的状况下,体现并不好。模型的预测谬误可能会一直的失去增强,导致模型在某些类别上精度很低。

咱们的办法收到了多视角学习思路的启发,利用视频数据中存在两种模态,在两个模态上辨认情感,交融它们取得更加精确的伪标签。为了进行语音情感辨认,本计划首先提取了语音的 STFT 特色,而后进行了 Specaugment 数据增广。因为 Transformer 在建模序列数据的胜利,本计划采纳了 Transformer 的 encoder 进行语音的编码,最初利用均值池化来失去语音特色并分类情感。

跨模态常识迁徙

为了进行跨模态情感迁徙,本计划基于 MobileNet 模型利用大量的人脸表情数据集训练了一个性能弱小的人脸表情辨认模型。应用此模型对从视频中抽取的图片帧进行人脸表情辨认。而后将多个帧辨认的后果综合到一起失去整个视频段的人脸表情预测后果。

半监督语音情感辨认

受到 FixMatch 中一致性正则化假如的启发,咱们设计了半监督语音情感识别方法。具体的,此办法对语音样本输出采取了两种类型的增广,利用强增广办法 SpecAugment 算法取得到语音重大扭曲版频谱特色,利用弱增广办法(特色上的 dropout 等)失去变动不大的语音特色。模型应用弱增广的样本生成伪标签,来监督强增广的样本的训练。

联合半监督学习与跨模态常识迁徙

在模型的每一次迭代中,本办法利用弱增广样本生成一个伪标签,而后将其与跨模态迁徙的伪标签进行交融,以进步伪标签的品质。本工作摸索了两种交融办法,一个是加权求和,一个是多视角一致性。失去高质量的伪标签之后,用此标签监督强增广样本的训练。

模型通过屡次迭代,一直晋升伪标签品质。

绝对于半监督学习办法和跨模态办法,本办法在 CH-SIMS 和 IEMOCAP 数据集上均获得了最好的成果。后果如下:

参考文献

[1]Pseudo-Label:TheSimpleandEfficientSemi-SupervisedLearningMethodforDeepNeuralNetworks
[2]Semi-SupervisedLearningwithLadderNetworks
[3]TemporalEnsemblingforSemi-supervisedLearning
[4]Meanteachersarebetterrolemodels:Weight-averagedconsistencytargetsimprovesemi-superviseddeeplearningresults
[5]FixMatch:SimplifyingSemi-SupervisedLearningwithConsistencyandConfidence
[6]Cross-MediaLearningforImageSentimentAnalysisintheWild
[7]SoundNet:LearningSoundRepresentationsfromUnlabeledVideo
[8]EmotionRecognitioninSpeechusingCross-ModalTransferintheWild

点击关注,第一工夫理解华为云陈腐技术~

正文完
 0