乐趣区

关于数据挖掘:R语言聚类文本挖掘分析虚假电商评论数据KMeansK均值层次聚类词云可视化

全文链接:http://tecdat.cn/?p=32540

原文出处:拓端数据部落公众号

聚类分析是一种常见的数据挖掘办法,曾经宽泛地利用在模式识别、图像处理剖析、天文钻研以及市场需求剖析。本文次要钻研聚类分析算法 K -means 在电商评论数据中的利用,挖掘出虚伪的评论数据。

本文次要帮忙客户钻研聚类分析在虚伪电商评论中的利用,因而须要从目标登程,收集相应的以电商为交易路径的评论信息。对考察或收集失去的信息进行量化录入解决,以及对缺失值过多的剖析对象进行删除。之后进行多维度的数据形容。因为地图最多只能显示三维空间,而顾客指标属性很可能不止三个,因而在数据形容中能够进行繁多指标与某个确定指标的二维展现,这样大抵先理解客户散布。

最终,通过利用改良的 K -means 算法对数据进行开掘,得出了直观有用的形象化论断,对之后公司管理层做销售决策提供了必要的根据。本次改良,也能够作为今后其余数据的参考,来进行其余数据的牢靠开掘,能够说提供了牢靠的参照。

钻研内容

本我的项目次要是针对事实中的市场营销与统计分析办法的联合,来开掘潜在的客户需要。随着电子商务的倒退和用户生产习惯扭转,电商在销售渠道的比重将大大加强,2014 年电商销售曾经超过了店面销售的数量。因而,这为通过数据挖掘算法来剖析客户的交易抉择行为,将客户的爱好通过分类来组别,这样进一步能开掘潜在客户和已交易客户的下一步潜在需要。

本文在根底的 K -means 聚类算法的根底上,联合该算法固有的一些缺点,提出了一些改良措施,即通过改良的 K -means 聚类算法来对“B2C 电商评论信息数据集”数据进行解决,在最终失去后果之后根据形象化的论断提出相应的公司决策,以满足市场的要求。

K-means 的改良

文献 [7] 是 Huang 为克服 K -means 算法仅适宜于数值属性数据聚类的局限性,提出的一种适宜于分类属性数据聚类的 K -modes 算法 ” 该算法对 K -means 进行了 3 点扩大:引入了解决分类对象的新的相同性度量办法(简略的相同性度量匹配模式),应用 mode:代替 means,并在聚类过程中应用基于频度的办法修改 modes,以使聚类代价函数值最小化 ” 这些扩大容许人们能间接应用 K -means 范例聚类有分类属性的数据,毋庸对数据进行变换 ”K-modes 算法的另一个长处是 modes,能给出类的个性形容,这对聚类后果的解释是十分重要的 ” 事实上,K-modes 算法比 K -means 算法能更快收敛,与 K -means 算法一样,K-modes 算法也会产生部分最优解,依赖于初始化 modes 的抉择和数据集中数据对象的秩序。初始化 modes 的抉择策略尚需进一步钻研。

1999 年,Huang 等人 [8] 证实了通过无限次迭代 K -modes 算法仅能收敛于部分最小值。

K-medoids 聚类算法的根本策略就是通过首先任意为每个聚类找到一个代表对象 (medoid) 而首先确定 n 个数据对象的 k 个聚类;(也须要循环进行)其它对象则依据它们与这些聚类代表的间隔别离将它们归属到各相应聚类中(依然是最小间隔准则)。

综合思考以上因素,本文思考了孤立点。传统的聚类分析将全副点进行聚类,而不思考可能存在的孤立点对聚类后果的烦扰,这使得聚类后果不足可靠性和稳定性。对于聚类后果,须要进行判别分析,包含内剖析和外剖析。内剖析次要是在聚类之后,点到类核心的阈值来寻找孤立点,从而剔除孤立点,保障样本和聚类核心的可靠性,在剔除了孤立点后须要从新计算类核心,如果呈现极其状况,甚至有可能进行再一次聚类分析;外剖析是指在确定好最终的聚类后果后,进行外样本预测,使聚类后果更加稳固。

剖析

数据集与环境

本文的试验环境为 Windows 7 操作系统,R 编程环境。同时选取了“B2C 电商评论信息数据集”作为试验对象。这个数据集中蕴含了 2370 条 B2C 电商评论信息。

数据文件:

设计

在这里,为了进步算法效率,升高数据的稠密性,本文首先导入文本数据,对该数据进行文本开掘。筛选出所有评论中词频最高的前 30 个词汇,用作试验的聚类属性。

# == 分词 + 频数统计  
words=unlist(lapply(X=data, FUN=segmentCN));  

每个高频词汇和其词频数据如下表所示:

word freq
丑陋 547
喜爱 519
色彩 477
品质 474
丝巾 452
不错 435
好评 425
谢谢 277
十分 273
解释 263
欢快 237
生存 229
称心 226
持续 225
宝贝 222
漂亮 217
一天 214
提供 214
致力 213
祝福 212
衷心 212
赏赐 212
感恩 212
收到 211
没有 187
色差 141
难看 126
图片 120
能够 110

通过中文分词 Rwordseg 词频云软件包能够依据不同的词汇的词频高下来显示文本开掘的高频词汇的总体后果。通过将词频用字体的大小和色彩的辨别,咱们能够显著地看到哪些词汇是高频的,哪些词汇的频率是差不多的,从而进行下一步钻研。

试验采纳上述数据集失去的高频词汇失去每个用户和高频词汇的频率矩阵。

记录 丑陋 喜爱 色彩 品质 丝巾 称心
1 0 0 0 0 0 0
2 0 1 0 0 0 0
3 1 1 0 0 0 0
4 1 1 0 0 0 0
5 0 0 0 0 1 0
6 1 0 0 0 0 0
7 1 0 0 0 0 0
8 0 0 1 0 0 0
9 0 2 0 0 0 0
10 0 0 0 0 0 1
11 0 1 1 0 1 0
12 0 0 0 0 0 0
13 1 0 0 2 1 1
14 0 0 0 0 0 0
15 1 1 0 1 0 0
16 0 1 0 0 0 0
17 1 0 1 1 1 0
18 0 0 0 0 0 0

用户词汇频率矩阵表格的一行代表用户的一条评论,列代表高频词汇,表中的数据代表该条评论中呈现的词汇频率。

后果及剖析

K- 均值聚类算法的虚伪评论聚类后果

用 K -mean 进行剖析,选定初始类别中心点进行分类。

个别是随机抉择数据对象作为初始聚类核心,因为 kmeans 聚类是无监督学习,因而须要先指定聚类数目。

档次聚类是另一种次要的聚类办法,它具备一些十分必要的个性使得它成为广泛应用的聚类办法。它生成一系列嵌套的聚类树来实现聚类。

从树的直观示意来看,当 height 取 80 的时候,树的分支能够大略分成 2 类,分成的类别比较清楚和直观,因而咱们去 k 等于 2,别离对应虚伪评论和实在评论。

K-means 算法失去的聚类核心


#查找虚伪评论

#比拟典型的辨认形式 
# 看文字,什么十分好,卖家特地棒,我特称心,当前还会来等等,写一大堆文字,然而没有对产品有实质性形容的,个别是刷的,这一点是次要判断根据,因为刷单的人个别要写很多家的评估,所以他不会对产品自身做任何评论,全都是一些通话套话。fake1= grep(pattern="十分好" ,data);       
fake2= grep(pattern=" 卖家特  

 for(j in 1:length(index)){jj=which(dd[,1]==index[j])
    rating[i,colnames(rating)==index[j]]=dd[]]# 高频词汇的数量赋值到评估矩阵
  }  
}
 


cl=kmeans(rating,2)# 对评估矩阵进行 k 均值聚类
write.csv(cl$cent

每个类所有点到类核心的间隔之和与均匀间隔

通过设定间隔阈值 k =2,咱们找出了 3356 个异样值并将其剔除。

 

而后绘制聚类散点图,通过聚类图,咱们能够看到实在评论和虚伪评论显著地被分成了两个聚类簇。

最初对 2 个类别离做了词频统计,并用词频云示意每个类的特色。

实在评论

wordcloud(colnames(c

虚伪评论

从词频云图能够看到,实在的评估中的次要关键词是品质,不错,色差等,从这些关键词来看,本文能够揣测这类用户次要看重的是商品的功能性和质量型,并且次要集中在一些根本的特色,如品质、色差。也能够揣测这些用户的商品评论没有太多富丽的词汇,而只是简略的不错,谢谢等。因而,能够认为实在的评论个别比较简单,并且会有一些对商品具体的方面的有余进行形容如色差,而不是一味的十分好、喜爱、欢快等。

虚伪评论类别中次要的关键词是好评!,感恩!,漂亮!,赏赐!、致力!祝福!等词汇。从这些关键词咱们大抵能够揣测这类用户次要应用的是一些富丽的词藻。他们比拟看重评论的夸大度和给人的好感度,更在乎评论给别的买家造成的美妙体验。这些用户往往应用很“完满”的评估,大多应用好评、漂亮、感恩等评估很高的词汇,而没有很关注商品的品质和具体的细节,个别套用了相近的评论模板,因而能够认为是虚伪评论。

参考文献

[1]T Zhang.R.Ramakrishnan and M.ogihara.An efficient data clustering method for very largedatabases.In Pror.1996 ACM-SlGMOD hat.Conf.Management of Data,Montreal.Canada,June 1996:103.114.

[2]邵峰晶,于忠清,王金龙,孙仁城  数据挖掘原理与算法(第二版)北京:科学出版社 ,2011, ISBN 978-7-03-025440-5.

[3]张建辉.K-meaIlS 聚类算法钻研及利用:[武汉理工大学硕士学位论文].武汉:武汉理工大学,2012.

[4]冯超.K-means 类算法的钻研:[大连理工大学硕士学位论文].大连:大连理工大学,2007.

[5]曾志雄.一种无效的基于划分和档次的混合聚类算法.计算机利用,2007,27(7):1692.1695.

[6]范光平.一种基于变长编码的遗传 K - 均值算法钻研:[浙江大学硕士学位论文].杭州:浙江大学,2011.

[7]孙士保,秦克云.改良的 K - 均匀聚类算法钻研.计算机工程,2007,33(13):200.202.

[8]孙可,刘杰,王学颖.K 均值聚类算法初始质心抉择的改良.沈阳师范大学学报,2009,27(4):448-450.

[9]Jain AK,Duin Robert PW,Mao JC.Statistical paaern recognition:A review.IEEE Trans.Actions on Paaem Analysis and Machine Intelligence,2000,22(1):4-37.

[10]Sambasivam S,Theodosopoulos N.Advanced data clustering methods ofmining web documents.Issues in Informing Science and Information Technology,2006,8(3):563.579.


最受欢迎的见解

1.Python 主题建模 LDA 模型、t-SNE 降维聚类、词云可视化文本开掘新闻组

2.R 语言文本开掘、情感剖析和可视化哈利波特小说文本数据

3.r 语言文本开掘 tf-idf 主题建模,情感剖析 n -gram 建模钻研

4. 游记数据感知游览目的地形象

5. 疫情下的新闻数据察看

6.python 主题 lda 建模和 t -sne 可视化

7.r 语言中对文本数据进行主题模型 topic-modeling 剖析

8. 主题模型:数据凝听人民网留言板的那些“网事”

9.python 爬虫进行 web 抓取 lda 主题语义数据分析

退出移动版