关于数据挖掘:R语言对耐克NIKEID新浪微博数据K均值KMEANS聚类文本挖掘和词云可视化

全文链接：http://tecdat.cn/?p=31048

原文出处：拓端数据部落公众号

2009年8月,新浪微博(micro-blog)开始服务,随后各家微博服务在国内失去广泛传播和利用”。微博具备文本信息短(140字包含标点符号)、词量少、裂变式流传、传播速度快、用词不标准等特色,使原文本可视化钻研技术框架中的聚类或分类办法提取热点话题变得艰难。

R语言次要用于统计分析与数据可视化,大量新兴钻研畛域算法不断更新,在人工智能畛域有宽泛的利用,R语言亦可用绝对简略地实现微博可视化工作。

咱们最近有一个很棒的机会与一位平凡的客户单干，要求构建一个耐克微博聚类算法。本文利用R语言实现对微博相应剖析。

所要剖析的数据对象为耐克nike微博热搜话题数据，数据款式如下图所示：

查看数据

文本预处理

res=pinglun1[pinglun1!=" "];

剔除通用题目

res=gsub(pattern="NIKEiD"," ",res);   
res=gsub(pattern="http://t.cn/"," ",res); 
res=gsub(pattern="com"," ",res); 
res=gsub(pattern="耐克"," ",res); 
res=gsub(pattern="官网"," ",res); 
res=gsub(pattern="中国"," ",res);

分词+频数统计

keyword=lapply(X=res, FUN=segmentCN)
words=unlist(keyword);

绘制词汇图

library("wordcloud")

mycolors <- brewer.pal(8,"Dark2")#设置一个色彩系：
wordcloud(d$word,d$freq

d2=data.frame(word=class2$word, freq=class2$freq);  

# 过滤掉1个字和词频小于100的记录

K均值聚类K-means

for(i in  1:nrow(cldata)){

   for(j in  unique(d$word) ){

    if(j %in%  unlist(keyword[i]))cldata[i,which(colnames(cldata) == j)]=1

  }

}

 

cl=kmeans(cldata,3)

聚类数据可视化

#cluster 1

y1=cldata[cldata$cluster==1,]

 

#cluster 2

 

y2=cldata[cldata$cluster==2,]

 

 #cluster 3

 

y3=cldata[cldata$cluster==3,]

1类词频云图

words=unlist(keyword[cl$cluster==1]);

2类词频云图

words=unlist(keyword[cl$cluster==2]);

3类词频云图

最受欢迎的见解

1.Python主题建模LDA模型、t-SNE 降维聚类、词云可视化文本开掘新闻组

2.R语言文本开掘、情感剖析和可视化哈利波特小说文本数据

3.r语言文本开掘tf-idf主题建模，情感剖析n-gram建模钻研

4.游记数据感知游览目的地形象

5.疫情下的新闻数据察看

6.python主题lda建模和t-sne可视化

7.r语言中对文本数据进行主题模型topic-modeling剖析

8.主题模型：数据凝听人民网留言板的那些“网事”

9.python爬虫进行web抓取lda主题语义数据分析

关于数据挖掘:R语言对耐克NIKEID新浪微博数据K均值KMEANS聚类文本挖掘和词云可视化

全文链接：http://tecdat.cn/?p=31048

原文出处：拓端数据部落公众号

查看数据

文本预处理

剔除通用题目

分词+频数统计

绘制词汇图

K均值聚类K-means

聚类数据可视化

1类词频云图

2类词频云图

3类词频云图

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于数据挖掘:R语言对耐克NIKEID新浪微博数据K均值KMEANS聚类文本挖掘和词云可视化

全文链接：http://tecdat.cn/?p=31048

原文出处：拓端数据部落公众号

查看数据

文本预处理

剔除通用题目

分词+频数统计

绘制词汇图

K均值聚类K-means

聚类数据可视化

1类词频云图

2类词频云图

3类词频云图

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复