乐趣区

关于机器学习:让机器有温度带你了解文本情感分析的两种模型

摘要:本篇博文从模型和算法的视角,别离介绍了基于统计办法的情感分析模型和基于深度学习的情感分析模型。

文本情感剖析 (Sentiment Analysis) 是指利用自然语言解决和文本开掘技术,对带有情感色调的主观性文本进行剖析、解决和抽取的过程。目前,文本情感剖析钻研涵盖了包含自然语言解决、文本开掘、信息检索、信息抽取、机器学习和本体学等多个畛域,失去了许多学者以及钻研机构的关注,近几年继续成为自然语言解决和文本开掘畛域钻研的热点问题之一。

从人的主观认知来讲,情感剖析工作就是答复一个如下的问题“什么人?在什么工夫?对什么货色?哪一个属性?表白了怎么的情感?”因而情感剖析的一个形式化表白能够如下:(entity,aspect,opinion,holder,time)。比方以下文本“我感觉 2.0T 的 XX 汽车能源十分磅礴。”其中将其转换为形式化元组即为(XX 汽车,能源,侧面情感,我,/)。须要留神的是以后的大部分钻研中个别都不思考情感剖析五因素中的观点持有者和工夫。

情感剖析问题能够划分为许多个细分的畛域,上面的思维导图展现了情感剖析工作的细分工作:

其中词级别和句子级别的剖析对象别离是一个词和整个句子的情感正负向,不辨别句子中具体的指标,如实体或属性,相当于疏忽了五因素中的实体和属性这两个因素。词级别情感剖析,即情感词典构建,钻研的是如何给词赋予情感信息。句子级 / 文档级情感剖析钻研的是如何给整个句子或文档打情感标签。而指标级情感剖析是思考了具体的指标,该指标能够是实体、某个实体的属性或实体加属性的组合。具体可分为三种:Target-grounded aspect based sentiment analysis (TG-ABSA), Target no aspect based sentiment analysis (TN-ABSA), Target aspect based sentiment analysis (T-ABSA). 其中 TG-ABSA 的剖析对象是给定某一个实体的状况下该实体给定属性汇合下的各个属性的情感剖析;TN-ABSA 的剖析对象是文本中呈现的实体的情感正负向;T-ABSA 的剖析对象是文本中呈现的实体和属性组合。下表例举了不同指标的情感剖析工作:

基于统计办法的情感分析模型

基于统计办法的情感分析方法次要依赖于曾经建设的“情感词典”,“情感词典”的建设是情感分类的前提和根底,目前在理论应用中,可将其归为 4 类:通用情感词、水平副词、否定词、畛域词。英文方面次要是基于对英文词典 WordNet[1] 的裁减,Hu 和 Liu[2]在已手工建设种子形容词词汇表的根底上,利用 WorldNet 中词间的同义和近义关系判断情感词的情感偏向,并以此来判断观点的情感极性。中文方面则次要是对知网 Hownet[3] 的裁减,朱嫣岚 [4] 利用语义类似度计算方法计算词语与基准情感词集的语义类似度,以此推断该词语的情感偏向。此外,还能够建设专门的畛域词典,以进步情感分类的准确性,比方建设新的网络词汇词典,来更精确的把握新词的情感偏向。

基于情感词典的办法,先对文本进行分词和停用词解决等预处理,再利用先构建好的情感词典,对文本进行字符串匹配,从而开掘侧面和负面信息。其大抵流程如图所示:

这里解决上述的词典外,上面 [5] 补充了现有的其它中文词典以供参考:

当然也能够通过语料来本人训练情感词典。导入情感词典后,咱们须要利用情感词典文本匹配算法进行情感剖析。基于词典的文本匹配算法绝对简略。一一遍历分词后的语句中的词语,如果词语命中词典,则进行相应权重的解决。侧面词权重为加法,负面词权重为减法,否定词权重取相反数,水平副词权重则和它润饰的词语权重相乘。利用最终输入的权重值,就能够辨别是侧面、负面还是中性情感了。一个典型的利用情感词典文本匹配算法进行情感剖析的算法流程如下[5]:

基于统计办法的情感分析模型简单易行,具备通用和泛化性,然而依然存在如下三点次要的有余:

1 精度不高

语言是一个高度简单的货色,采纳简略的线性叠加显然会造成很大的精度损失。词语权重同样不是变化无穷的,而且也难以做到精确。

2 词典须要继续更新

对于新的情感词,比方给力,牛逼等等,词典不肯定可能笼罩。因而须要一直刷新词典来补充新词。在当下网络词汇一直呈现的时代,如果词典的刷新速度跟不上新词呈现的速度,那么情感剖析在理论应用中会与预期相差较大的间隔。比方淘宝商品评估,饿了么外卖评估等,如果无奈捕获新词,那么剖析的情感将会偏离理论。

3 构建词典艰难

基于词典的情感分类,外围在于情感词典。而情感词典的构建须要有较强的背景常识,须要对语言有较粗浅的了解,在剖析外语方面会有很大限度。

基于深度学习的情感分析模型

在理解了基于统计办法的情感分析模型优缺点之后,咱们看一下深度学习文本分类模型是如何进行文本情感剖析分类的。深度学习的一个劣势就是能够进行端到端的学习,而省略的两头每一步的人工干预步骤。基于预训练模型生成的词向量,深度学习首先能够解决的一个重要问题就是情感词典的构建。上面咱们会以集中典型的文本分类模型为例,展现深度文本分类模型的演进方向和实用场景。

2.1 FastText[6]

模型运行步骤:

2.2 TextCNN[7]

2.3 TextRNN[8]

2.4 TextRNN+Attention[9]

HAN 为 Hierarchical Attention Networks,将待分类文本,分为肯定数量的句子,别离在 word level 和 sentence level 进行 encoder 和 attention 操作,从而实现对较长文本的分类。相比于上述的算法模型,HAN 的构造略微简单一些,具体能够合成为以下步骤。

2.5 TextRCNN[10]

RCNN算法过程:首先,采纳双向 LSTM 学习 word 的上下文,利用前向和后向 RNN 失去每个词的前向和后向上下文的示意:

词的示意变成词向量和前向后向上下文向量连接起来的模式:

之后再接跟 TextCNN 雷同卷积层,pooling 层即可,在 seq_length 维度进行 max pooling,而后进行 fc 操作就能够进行分类了,能够将该网络看成是 fasttext 的改良版本。

总结

本篇博文从模型和算法的视角,别离介绍了基于统计办法的情感分析模型和基于深度学习的情感分析模型。基于统计办法的情感分析模型简略易用,然而在精确、灵便和泛化性上有较大的缺点;基于深度学习的模型演进方向是一直通过更深和简单的网络来捕获上下文信息,同时借助于弱小的预训练模型生成的词向量来训练神经网络来实现这项工作。上面的开源仓库 [13] 具体介绍了每一种模型的 pytorch 实现以及在雷同的中文 baseline 上的比照;上面的两篇博文 11 也是对其余情感剖析深度学习模型进行了具体介绍,能够作为进一步摸索的指引。

参考文献

[1]https://wordnet.princeton.edu/

[2]HU M,LIU B. Mining and summarizing customer reviews[C]. NY,USA:Proceedings of Knowledge Discoveryand Da-ta Mining,2004:168 - 177.

[3]https://languageresources.git…

%E9%87%91%E5%A4%A9%E5%8D%8E_Hownet/

[4]朱嫣岚,闵锦,周雅倩,等. 基于 How Net 的词汇语义偏向计算[J]. 中文信息学报,2006,20(1):14 - 20

[5]https://blog.csdn.net/weixin_…

details/93163519

[6]https://arxiv.org/abs/1612.03651

[7]https://arxiv.org/abs/1408.5882

[8]https://www.ijcai.org/Proceed…

[9]https://www.aclweb.org/anthol…

[10]http://zhengyima.com/my/pdfs/…

[11]https://zhuanlan.zhihu.com/p/…

[12]https://zhuanlan.zhihu.com/p/…

[13]https://github.com/649453932/…

本文分享自华为云社区《NLP 专栏丨情感分析方法入门下》,原文作者:就挺忽然。

点击关注,第一工夫理解华为云陈腐技术~

退出移动版