原文链接:http://tecdat.cn/?p=22879

数据集概述

这个数据集罕用于数据概述、可视化和聚类模型。它包含三个鸢尾花种类,每个种类有50个样本,以及一些属性。其中一个花种与其余两个花种是线性可拆散的,但其余两个花种之间不是线性可拆散的。

这个数据集的给定列是:

i> Id
ii> 萼片长度(Cm)
iii>萼片宽度(Cm)
iv> 花瓣长度(Cm)
v> 花瓣宽度 (Cm)
vi> 种类

让咱们把这个数据集可视化,并用kmeans进行聚类。

根本可视化

IRIS数据,聚类前的根本可视化

plot(data, aes(x , y ))

plot(data,geom_density(alpha=0.25)

火山图

plot( iris, stat_density(aes(ymax = ..density..,  ymin = -..density..,

plot(data, aes(x ),stat\_density= ..density..,  facet\_grid. ~ Species)

聚类数据 :: 办法-1

# 在一个循环中进行15次的kmeans聚类分析for (i in 1:15) kmeans(Data, i)      totalwSS\[i\]<-tot# 聚类碎石图 - 应用plot函数绘制total_wss与no-of-clusters的数值。plot(x=1:15,                         # x= 类数量, 1 to 15     totalwSS,                      #每个类的total_wss值     type="b"                       # 绘制两点,并将它们连接起来

聚类数据 :: 办法-2

应用聚类有效性测量指标

library(NbClust)# 设置边距为: c(bottom, left, top, right)par(mar = c(2,2,2,2))    # 依据一些指标来掂量聚类的适合性。# 默认状况下,它查看从2个聚类到15个聚类的状况 # 破费工夫

休伯特指数

休伯特指数是一种确定聚类数量的图形办法。
在休伯特指数图中,咱们寻找一个显著的拐点,对应于测量值的明显增加,即休伯特指数第二差值图中的显著峰值。
 

D指数

在D指数的图表中,咱们寻找一个重要的拐点(D指数第二差值图中的重要峰值),对应于测量值的显著减少。 

##  ## ******************************************************************* ## * 在所有指数中:                                                ## * 10 proposed 2 as the best number of clusters ## * 8 proposed 3 as the best number of clusters ## * 2 proposed 4 as the best number of clusters ## * 1 proposed 5 as the best number of clusters ## * 1 proposed 8 as the best number of clusters ## * 1 proposed 14 as the best number of clusters ## * 1 proposed 15 as the best number of clusters ## ##                    ***** 论断*****                            ##  ## * 依据少数规定,集群的最佳数量是2 ##  ##  ## *******************************************************************

画一个直方图,示意各种指数对聚类数量的投票状况。
在26个指数中,大多数(10个)投票给2个聚类,8个投票给3个聚类,其余8个(26-10-8)投票给其余数量的聚类。
直方图,断点=15,因为咱们的算法是查看2到15个聚类的。 

hist(Best.nc)

聚类数据 :: 办法-3

卡林斯基指标相似于寻找群组间方差/群组内方差的比率。

KM(Data, 1, 10)  # 对聚类1至10的测试# sortg = TRUE:将iris对象(行)作为其组别成员的函数排序# 在热图中用色彩示意组成员类# 排序是为了产生一个更容易解释的图表。# 两个图。一个是热图,另一个是聚类数目与值(=BC/WC)。

modelData$results\[2,\]   # 针对BC/WC值的聚类

# 那么,这些数值中哪一个是最大的?BC/WC应尽可能的大which.max(modelData$results\[2,\])

用Silhoutte图对数据进行聚类 :: 办法-4

先试着2个类

# 计算并返回通过应用欧氏间隔测量法计算的间隔矩阵,计算数据矩阵中各行之间的间隔。# 获取silhoutte 系数silhouette (cluster, dis)

试用8个聚类

# 计算并返回通过应用欧氏间隔测量法计算的间隔矩阵,计算数据矩阵中各行之间的间隔。# 获取silhoutte 系数silhouette (cluster, dis)

剖析聚类趋势

计算iris和随机数据集的霍普金统计值

# 1. 给定一个数字向量或数据框架的一列 依据其最小值和最大值生成对立的随机数  runif(length(x), min(x), (max(x)))# 2.  通过在每一列上利用函数生成随机数据apply(iris\[,-5\], 2, genx)  # 3. 将两个数据集标准化scale(iris)   # 默认, center = T, scale = T# 4. 计算数据集的霍普金斯统计数字hopkins_stat

# 也能够用函数hopkins()计算。hopkins(iris)

# 5. 计算随机数据集的霍普金斯统计量hopkins_stat


最受欢迎的见解

1.R语言k-Shape算法股票价格工夫序列聚类

2.R语言中不同类型的聚类办法比拟

3.R语言对用电负荷工夫序列数据进行K-medoids聚类建模和GAM回归

4.r语言鸢尾花iris数据集的档次聚类

5.Python Monte Carlo K-Means聚类实战

6.用R进行网站评论文本开掘聚类

7.用于NLP的Python:应用Keras的多标签文本LSTM神经网络

8.R语言对MNIST数据集剖析 摸索手写数字分类数据

9.R语言基于Keras的小数据集深度学习图像分类