乐趣区

关于数据:华为云专家带你解读文本情感分析任务

摘要:本文次要介绍了文本情感剖析的次要工作,包含词级别的情感剖析、句子级情感剖析以及属性级情感剖析等工作的介绍,同时介绍了华为云在这三个工作上的一些停顿。

1 基本概念

为什么:随着挪动互联网的遍及,网民曾经习惯于在网络上表达意见和倡议,比方电商网站上对商品的评估、社交媒体中对品牌、产品、政策的评估等等。这些评估中都蕴含着微小的商业价值。比方某品牌公司能够剖析社交媒体上宽广民众对该品牌的评估,如果负面评估突然增多,就能够疾速采取相应的口头。而这种正负面评估的剖析就是情感剖析的次要利用场景。

是什么:文本情感剖析旨在剖析出文本中针对某个对象的评估的正负面,比方“华为手机十分好”就是一个侧面评估。情感剖析次要有五个因素,(entity/ 实体,aspect/ 属性,sentiment/ 观点,holder/ 观点持有者,time/ 工夫),其中实体和属性合并称为评估对象(target)。情感剖析的指标就是从非结构化的文本评论中抽取出这五个因素。

图 1 情感剖析五因素

举例如下图:

图 2 情感剖析五因素例子

上例中左侧为非结构化的评论文本,右侧为情感分析模型剖析出的五个因素中的四个(不包含工夫)。其中实体“华为手机”和属性“拍照”合并起来能够作为评估对象。评估对象又可细分为评估对象词抽取和评估对象类别辨认。如实体能够是实体词和实体类别,实体词能够是“餐馆”、“饭店”、“路边摊”,而实体类别是“饭店”;属性能够是属性词和属性类别,如属性词能够是“水煮牛肉”、“三文鱼”等,都对应了属性类别“食物”。实体类别和属性类别相当于是对实体词和属性词的一层形象和归类,是一对多的关系。词和类别别离对应了不同的工作。观点的取值范畴个别是{侧面,负面,中性}。相似的,能够把观点看做是对形容词的形象和归类,如“难看”归为“侧面”。

2 工作类型

以后钻研中个别都不思考情感剖析五因素中的观点持有者和工夫,故后文中的探讨都不思考这两个因素。依据对剩下三个因素的简化,以后情感剖析的次要工作包含可依照图 3 所示:词级别情感剖析、句子 / 文档级情感剖析、指标级情感剖析。

图 3 情感剖析工作体系

其中词级别和句子级别的剖析对象别离是一个词和整个句子的情感正负向,不辨别句子中具体的指标,如实体或属性,相当于疏忽了五因素中的实体和属性这两个因素。词级别情感剖析,即情感词典构建,钻研的是如何给词赋予情感信息,如“生日”对应的情感标签是“侧面”。句子级 / 篇章级情感剖析钻研的是如何给整个句子或篇章打情感标签,如“今天天气十分好”对应的情感标签是“侧面”。

而指标级情感剖析是思考了具体的指标,该指标能够是实体、某个实体的属性或实体加属性的组合。具体可分为三种:Target-grounded aspect based sentiment analysis (TG-ABSA), Target no aspect based sentiment analysis (TN-ABSA), Target aspect based sentiment analysis (T-ABSA). 其中 TG-ABSA 的剖析对象是给定某一个实体的状况下该实体给定属性汇合下的各个属性的情感剖析,如图 4 中的实体是汽车,属性汇合是能源、外观、空间和油耗。

图 4 TG-ABSA 例子

TN-ABSA 的剖析对象是文本中呈现的实体的情感正负向,如图 5 中,实体华为和 XX 的情感正负向别离为侧面和负面。这种状况下没有属性的概念,只有实体。

图 5 TN-ABSA 例子

T-ABSA 的剖析对象是文本中呈现的实体和属性组合,如图 6 所示,评估对象是实体 + 属性的组合,如华为 + 拍照和 XX+ 性价比。

图 6 TG-ABSA 例子

在分明了指标级情感剖析的分类之后,每个类别又都能够蕴含为两大类工作:第一个是评估对象的辨认,第二个是情感辨认。评估对象辨认包含评估对象词抽取和评估对象词分类,情感辨认包含评估词抽取和评估正负面分类。具体例子如图 7 所示。之所以要辨认出对象词和评估词,是为了可能基于属性正负面过滤的时候能够高亮相应的评估文本片段。

图 7 评估对象和评估词和类别辨认例子

本文次要介绍词级别情感剖析、句子级情感剖析和指标级情感剖析中的 T -ABSA 的内容、办法和华为云语音语义团队在该畛域实际中的一些成绩。这里首先辨别一些概念,本文所说的情感,包含 emotion 和 sentiment 两种。严格意义上来说 sentiment 属于 emotion 的一种,然而本文中不做辨别。

3 词级文本情感剖析

3.1 工作介绍

词级别的情感剖析,即构建情感词典(sentiment lexicon),旨在给词赋予情感信息。这里首先要确定的是情感怎么示意,常见的示意办法有离散表示法和多维度表示法。离散表示法如情感剖析畛域罕用的 {侧面,负面,中性} 的示意办法,或者如表

图 8 离散情感模型

用离散表示法示意的情感词典如:

  • 快乐 - 侧面,生日 - 侧面,车祸 - 负面,劫难 - 负面

多维度表示法也有多种,如 Valence-Arousal-Dominance(VAD)模型,Evaluation-Potency-Activity(EPA)模型等。Valence 和 Evaluation 示意好坏,arousal 和 activity 示意人的唤起度,dominance 和 potency 示意控制力。

图 9 Valence-Arousal 模型

用间断多维示意办法的情感词典例子如:

  • VAD 模型在 [1,9] 取值范畴下:车祸可示意为 (2.05, 6.26, 3.76)

3.2 常见的办法

构建情感词典常见的办法如图 10 所示:

图 10 常见情感词典构建办法

人工标注长处是精确,毛病是老本太高。自动化办法中,都是先有人工标注一些种子词,而后通过不同的办法把种子词的标签信息扩大到其余词。基于点互信息的办法会基于大规模语料库统计新词和种子词之间的统计信息,而后基于该信息对种子词做加权求和失去信息的情感标签。基于标签流传的办法会先构建词和种子词的一个图,图上的边是基于词和词之间的统计信息取得。而后用标签流传的算法取得新词的情感信息。基于回归的办法先构建词的特征向量示意,而后基于种子词的标签信息训练一个回归或分类模型,失去该模型后再对新词做预测,取得新词的情感标签信息。

3.3 咱们的停顿

咱们团队基于曾经标注的情感词典,通过自动化的办法,构建了以后业界最大规模的多维度情感词典。

图 11 情感词典构建流程

基于该办法,咱们构建了业界最大规模的情感词典库,采纳了 Valence-Arousal 的二维情感示意模型,情感值取值范畴为[-1,.1](- 1 示意不好(对应 Valence 维度)或无唤醒(对应 Arousal 维度),1 示意好或高唤醒度), 词典蕴含六百万词,例子如下:

图 12 构建的情感词典例子

4 句子文本情感剖析

4.1 工作介绍

句子级和篇章级文本情感剖析旨在整个句子或文章表白的情感倾向性,如下例子:

  • 买没几天就提价一点都不开心,闪存跑分就五百多点点 —
  • 外观丑陋音质不错,当初电子产品基本上都是华为的了 —
  • 汽车不错,省油,性价比高 —
  • 这个政策好啊,利国利民 —

以后各友商推出的情感剖析服务大部分都是这种整体文本的 正负向 预测。句子级情感剖析服务在互联网时代的电商评论、政策评估中有着宽泛的利用价值。句子级情感剖析是一个典型的文本分类工作,咱们团队也采纳了以后比拟无效的预训练模型 + 微调的计划,如下图所示:

图 13 句子级情感剖析计划

4.2 咱们的停顿

以后咱们曾经上线了电商、汽车和社交畛域的情感分析模型,次要反对中文语言,标签是侧面和负面,带有标签置信度。如下图的例子所示,别离是手机、汽车和社交畛域。

图 14 EI 体验空间电商畛域、汽车畛域和社交畛域例子

5 指标级文本情感剖析

5.1 工作介绍

后面介绍的句子级或篇章级的情感剖析只关注整个文本的正负面,没有辨别文本中具体的评估对象。所以就解决不了如下的例子:

该例子对汽车的各个属性的评估正负面是不一样的,如对能源和外观来说是侧面,对空间和油耗来说是负面,所以就不能简略的剖析整体文本的正负面。本节介绍的指标情感剖析中的 TG-ABSA 工作,即固定实体下的给定属性汇合的评估 正负面 的预测。

5.2 咱们的停顿

传统的属性级情感剖析能够采纳每个属性训练一个情感分类模型。然而这种办法须要训练多个分类模型,老本比拟高。咱们提出了基于单模型多属性标签输入的办法,即一个模型同时输入 N 个属性的情感标签。图 15 是以后在汽车畛域后果,其中 Attribute Hit Rate 是属性的命中率,即预测出的属性占评论中理论呈现的比率。Hit Attribute Accuracy 是命中的属性标签预测的准确率,即在所有命中的属性中,标签预测正确属性的占比。因为咱们的模型能够输入每个属性标签的置信度,所以能够基于置信度过滤来调节模型最终的输入标签,图中是个曲线。图 16 是汽车畛域属性级情感剖析的例子,能够同时预测出评论中呈现的能源和外观两个属性对应的正负面。该性能反对汽车畛域的八个属性的评估预测,包含:内饰、能源、外观、性价比、操控、能耗、空间、舒适性。

图 15 属性级情感剖析的成果

图 16 汽车畛域属性情感剖析例子

6 总结

本文介绍了情感剖析的概念以及华为云在情感剖析方面的实际和停顿,局部服务曾经能够在咱们的“EI 体验空间”小程序体验,欢送大家体验并提出贵重的意见。情感剖析服务能够用于商品评估智能化剖析、智能评分等,欢送大家试用。

点击关注,第一工夫理解华为云陈腐技术~

退出移动版