关于算法:用Rapidminer做文本挖掘的应用情感分析

原文链接：http://tecdat.cn/?p=14547

情感剖析或观点开掘是文本剖析的一种利用，用于辨认和提取源数据中的主观信息。

情感剖析的根本工作是将文档，句子或实体特色中表白的观点分类为必定或否定。本教程介绍了Rapidminer中情感剖析的用法。此处提供的示例给出了电影列表及其评论，例如“ 侧面” 或“ 负面”。该程序实现了Precision and Recall办法。精度是（随机抉择的）检索文档相干的概率。 召回率 是在搜寻中检索到（随机抉择的）相干文档的概率。高召回率 意味着算法返回了大多数相干后果。精度高示意算法返回的相干后果多于不相干的后果。

首先，对某部电影进行侧面和负面评论。而后，单词以不同的极性（正负）存储。矢量单词表和模型均已创立。而后，将所需的电影列表作为输出。模型将给定电影列表中的每个单词与先前存储的具备不同极性的单词进行比拟。电影评论是依据极性下呈现的大多数单词来估算的。例如，当查看Django Unchained时，会将评论与结尾创立的矢量单词表进行比拟。最多的单词属于正极性。因而后果是必定的。负面后果也是如此。

进行此剖析的第一步是从数据中解决文档，即提取电影的侧面和负面评论并将其以不同极性存储。该模型如图1所示。

图1

在“解决文档”下，单击右侧的“编辑列表”。在不同的类名称“ Positive”和“ Negative”下加载必定和否定评论。

图2

在Process Document运算符下，产生嵌套操作，例如对单词进行标记，过滤进行单词。

而后应用两个运算符，例如Store和Validation运算符，如图1所示。Store运算符用于将字向量输入到咱们抉择的文件和目录中。验证算子（穿插验证）是评估统计模型准确性和有效性的一种规范办法。咱们的数据集分为两个局部，一个训练集和一个测试集。仅在训练集上训练模型，并在测试集上评估模型的准确性。反复n次。双击验证运算符。将有两个面板-训练和测试。在“训练”面板下，应用了线性反对向量机（SVM），这是一种风行的分类器集，因为该函数是所有输出变量的线性组合。为了测试模型，咱们应用“利用模型”运算符将训练集利用于咱们的测试集。为了测量模型的准确性，咱们应用“ Performance”运算符。

而后运行模型。类召回率％和精度％的后果如图5所示。模型和向量单词表存储在存储库中。

图5

而后从之前存储的存储库中检索模型和矢量单词表。而后从检索单词列表连贯到图6所示的流程文档操作符。

而后单击“流程文档”运算符，而后单击右侧的编辑列表。这次，我从网站增加了5条电影评论的列表，并将其存储在目录中。为类名称调配未标记的名称，如图7所示。

Apply Model运算符从Retrieve运算符中获取一个模型，并从Process文档中获取未标记的数据作为输出，而后将所利用的模型输入到“实验室”端口，因而将其连贯到“ res”（后果）端口。后果如下所示。当查看《悲惨世界》时，有86.4％的人认为它是侧面的，而13.6％的人认为是负面的，这是因为评论与正极性词表的匹配度高于负面。

图8

参考文献：

1.探析大数据期刊文章钻研热点

2.618网购数据盘点-剁手族在关注什么

3.r语言文本开掘tf-idf主题建模，情感剖析n-gram建模钻研

4.python主题建模可视化lda和t-sne交互式可视化

5.r语言文本开掘nasa数据网络剖析，tf-idf和主题建模

6.python主题lda建模和t-sne可视化

7.r语言中对文本数据进行主题模型topic-modeling剖析

8.r语言对nasa元数据进行文本开掘的主题建模剖析

9.python爬虫进行web抓取lda主题语义数据分析