关于算法:用Rapidminer做文本挖掘的应用情感分析

6次阅读

共计 1522 个字符,预计需要花费 4 分钟才能阅读完成。

原文链接:http://tecdat.cn/?p=14547

情感剖析或观点开掘是文本剖析的一种利用,用于辨认和提取源数据中的主观信息。

情感剖析的根本工作是将文档,句子或实体特色中表白的观点分类为必定或否定。本教程介绍了 Rapidminer 中情感剖析的用法。此处提供的示例给出了电影列表及其评论,例如“侧面”  或“负面”。该程序实现了 Precision and Recall 办法。精度  是(随机抉择的)检索文档相干的概率。 召回率  是在搜寻中检索到(随机抉择的)相干文档的概率。高 召回率  意味着算法返回了大多数相干后果。 精度 高  示意算法返回的相干后果多于不相干的后果。

首先,对某部电影进行侧面和负面评论。而后,单词以不同的极性(正负)存储。矢量单词表和模型均已创立。而后,将所需的电影列表作为输出。模型将给定电影列表中的每个单词与先前存储的具备不同极性的单词进行比拟。电影评论是依据极性下呈现的大多数单词来估算的。例如,当查看 Django Unchained 时,会将评论与结尾创立的矢量单词表进行比拟。最多的单词属于正极性。因而后果是必定的。负面后果也是如此。

进行此剖析的第一步是从数据中解决文档,即提取电影的侧面和负面评论并将其以不同极性存储。该模型如图 1 所示。

图 1

在“解决文档”下,单击右侧的“编辑列表”。在不同的类名称“Positive”和“Negative”下加载必定和否定评论。

图 2

在 Process Document 运算符下,产生嵌套操作,例如对单词进行标记,过滤进行单词。

而后应用两个运算符,例如 Store 和 Validation 运算符,如图 1 所示。Store 运算符用于将字向量输入到咱们抉择的文件和目录中。验证算子(穿插验证)是评估统计模型准确性和有效性的一种规范办法。咱们的数据集分为两个局部,一个训练集和一个测试集。仅在训练集上训练模型,并在测试集上评估模型的准确性。反复 n 次。双击验证运算符。将有两个面板 - 训练和测试。在“训练”面板下,应用了线性反对向量机(SVM),这是一种风行的分类器集,因为该函数是所有输出变量的线性组合。为了测试模型,咱们应用“利用模型”运算符将训练集利用于咱们的测试集。为了测量模型的准确性,咱们应用“Performance”运算符。

而后运行模型。类召回率%和精度%的后果如图 5 所示。模型和向量单词表存储在存储库中。

图 5

而后从之前存储的存储库中检索模型和矢量单词表。而后从检索单词列表连贯到图 6 所示的流程文档操作符。

而后单击“流程文档”运算符,而后单击右侧的编辑列表。这次,我从网站增加了 5 条电影评论的列表,并将其存储在目录中。为类名称调配未标记的名称,如图 7 所示。

Apply Model 运算符从 Retrieve 运算符中获取一个模型,并从 Process 文档中获取未标记的数据作为输出,而后将所利用的模型输入到“实验室”端口,因而将其连贯到“res”(后果)端口。后果如下所示。当查看《悲惨世界》时,有 86.4%的人认为它是侧面的,而 13.6%的人认为是负面的,这是因为评论与正极性词表的匹配度高于负面。

图 8


参考文献:

1. 探析大数据期刊文章钻研热点

2.618 网购数据盘点 - 剁手族在关注什么

3.r 语言文本开掘 tf-idf 主题建模,情感剖析 n -gram 建模钻研

4.python 主题建模可视化 lda 和 t -sne 交互式可视化

5.r 语言文本开掘 nasa 数据网络剖析,tf-idf 和主题建模

6.python 主题 lda 建模和 t -sne 可视化

7.r 语言中对文本数据进行主题模型 topic-modeling 剖析

8.r 语言对 nasa 元数据进行文本开掘的主题建模剖析

9.python 爬虫进行 web 抓取 lda 主题语义数据分析

正文完
 0