关于数据挖掘:R语言KMeansK均值聚类和层次聚类算法对微博用户特征数据研究

48次阅读

共计 2611 个字符,预计需要花费 7 分钟才能阅读完成。

全文链接:https://tecdat.cn/?p=32955

原文出处:拓端数据部落公众号

本文就将采纳 K -means 算法和档次聚类对基于用户特色的微博数据帮忙客户进行聚类分析。首先对聚类分析作零碎介绍。其次对聚类算法进行文献回顾,对其详情、根本思维、算法进行具体介绍,再是通过一个仿真试验具体来强化理解聚类算法,本文的数据是由所设计地软件在微博平台上获取的数据,最初失去相干论断和启发。

聚类分析法概述

聚类算法的钻研有着相当长的历史,早在 1975 年 Hartigan 就在其专著 Clustering Algorithms[5]中对聚类算法进行了零碎的阐述。聚类分析算法作为一种无效的数据分析办法被广泛应用于数据挖掘、机器学习、图像宰割、语音辨认、生物信息处理等。

聚类办法是无监督模式识别的一种办法,同时也是一种很重要的统计分析办法。聚类分析曾经被宽泛的钻研了很多年,钻研畛域涵盖数据挖掘、统计学、机器学习和空间数据库等泛滥畛域。聚类是基于数据的相似性将数据汇合划分成组,而后给这些划分好的组指定标号。目前文献中存在着大量的聚类算法,大体上,聚类分析算法次要分成如下几种 [6],图 2 - 1 显示了一些次要的聚类算法的分类。

微博用户特色数据钻研

为了进一步验证 K -means 算法,本文将采集一批微博数据,通过依据微博用户特色属性对其进行聚类,并得出结论。

数据采集

新浪微博,作为中国的较大的用户应用较受欢迎的微博应用平台之一,从其平台上抽取的微博肯定水平上能够反映国内微博平台的流传状况。鉴于新浪微博在国内具备较大影响力,故本文选取有影响力的新浪微博用户为钻研对象,包含大 V、电商平台、明星、网红等,从微博用户特色登程,来摸索基于用户特色的聚类分析。本钻研总共获取了 50359 条微博数据。

数据取值范畴

指标 取值范畴
是否认证 V 或 N
性别 男或女
粉丝数 0,1,2…(非负整数)
微博数 0,1,2…(非负整数)
注册工夫比 日期

依据本文需要,采纳编程软件在新浪微博平台上收集到的相干数据,具体样本实例如图所示,其中,对是否加 V,粉丝关注比进行标准化。

K-means 和档次聚类

data=read.csv("2012 年 12 月新浪微博用户数据.csv")

#删除缺失值
dat=.mit(data)
for(i in 3:ncol(dta))dta[,i]=as.nuerc(daa[,i])

kmas(data[,c("性别" ,"粉丝数","微博数" ,"是否认证" ,"注册工夫")]

本文采纳 R 软件对数据进行 K -means 聚类和档次聚类分析。R 语言是统计畛域宽泛应用的,诞生于 1980 年左右的 S 语言的一个分支。

后果

将该数据集分为了三类。

plot(data[,3:4], fit$clust

K-means 算法将该样本集分为 4 类,其中最多的为 cluster-2,有 39886 条记录,其次是 cluster-3,有 4561 条记录,再者是 cluster-1,为 3514 条记录,cluster-4,为 2398 条记录。从聚类数量来看聚类数目散布正当,没有呈现过少的离群点。从聚类核心来看,第二类别是微博数较少,然而粉丝很多,并且注册工夫较早的一批用户,并且曾经是认证的用户,因而能够认为是大 V 用户。第 1 类同样领有较多的粉丝,同样是认证用户,能够认为是小 V 用户。第三类粉丝数目少,没有认证,并且注册较晚,因而能够认为是一般微博用户,第四类用户微博数目多,粉丝数目较多,然而没有认证,因而能够认为是草根名博。

档次聚类验证

为了验证该后果的可行性,又采纳了 R 统计软件对样本进行了档次聚类分析。具体代码如下所示:

attach(x):c<-hcst(dist(x),"sin

ct.hclu

失去聚类后果如图:

从档次聚类的后果来看,将该数据划分成 4 个类别是绝对正当的,因而上述认证有理有据。

论断

本文钻研了数据挖掘的钻研背景与意义,探讨了聚类算法的各种根本实践包含聚类的形式化形容和定义,聚类中的数据类型和数据后果,聚类的相似性度量和准则函数等。同时也探讨学习了基于划分的聚类办法的典型的聚类办法。本文重点集中学习了钻研了 K-Means 聚类算法的思维、原理以及该算法的优缺点。并使用 K -means 算法对所采集的数据进行聚类分析,深入了对该算法的了解。

参考文献

[1] 中国互联网络信息中心(CNNIC). 第 33 次中国互联网络倒退情况统计报告 [EB/OL].

[2] 郭宇红,童云海,唐世渭等. 数据库中的常识暗藏 [J]. 软件学报,2007,11 (18) : 278222797.

[3] hehroz S.Khan,Amir Ahmad.Cluster center initialization algorithm for K-Means clustering[J].Pattern Recognition Letters 25(2004): 1293-1302.

[4] 王春风,唐拥政. 联合近邻和密度思维的 K - 均值算法的钻研 [J] 计算机工程利用.2011 年,47(19).147-149.

[5] 杨小兵. 聚类分析中若干关键技术的钻研 [D]. 杭州: 浙江大学,2005 年:24-25.

[6] Hartigan J A. Clustering Algorithms[M].New York: John Wiley&Sons Inc.,1975.

[7] Tony Bain 等著. 邵勇译.SQL Server2000 数据仓库与 Analysis Services[M]. 北京. 中国电力出版社,2003.

[8] Handl Julia,Joshua Knowles,Douglas B. Kell. Computational cluster validation  in post-genomic data


最受欢迎的见解

1. R 语言 k -Shape 算法股票价格工夫序列聚类

2. R 语言基于温度对城市档次聚类、kmean 聚类、主成分剖析和 Voronoi 图

3. R 语言对用电负荷工夫序列数据进行 K -medoids 聚类建模和 GAM 回归

4. r 语言鸢尾花 iris 数据集的档次聚类

5.Python Monte Carlo K-Means 聚类实战

6. 用 R 进行网站评论文本开掘聚类

7. R 语言 KMEANS 均值聚类和档次聚类:亚洲国家地区生存幸福品质异同可视化 **

8.PYTHON 用户散失数据挖掘:建设逻辑回归、XGBOOST、随机森林、决策树、反对向量机、奢侈贝叶斯模型和 KMEANS 聚类用户画像

9. R 语言基于 Keras 的小数据集深度学习图像分类

正文完
 0