关于算法:R语言聚类有效性确定最优聚类数分析IRIS鸢尾花数据和可视化

这个数据集罕用于数据概述、可视化和聚类模型。它包含三个鸢尾花种类，每个种类有 50 个样本，以及一些属性。其中一个花种与其余两个花种是线性可拆散的，但其余两个花种之间不是线性可拆散的。

i> Id
ii> 萼片长度 (Cm)
iii> 萼片宽度 (Cm)
iv> 花瓣长度 (Cm)
v> 花瓣宽度 (Cm)
vi> 种类

让咱们把这个数据集可视化，并用 kmeans 进行聚类。

IRIS 数据，聚类前的根本可视化

plot(data, aes(x , y))

plot(data,geom_density(alpha=0.25)

plot(iris, stat_density(aes(ymax = ..density..,  ymin = -..density..,

plot(data, aes(x),stat\_density= ..density..,  facet\_grid. ~ Species)

# 在一个循环中进行 15 次的 kmeans 聚类分析
for (i in 1:15)
 kmeans(Data, i)    
  totalwSS\[i\]<-tot


# 聚类碎石图 - 应用 plot 函数绘制 total_wss 与 no-of-clusters 的数值。plot(x=1:15,                         # x= 类数量, 1 to 15
     totalwSS,                      #每个类的 total_wss 值
     type="b"                       # 绘制两点，并将它们连接起来

应用聚类有效性测量指标

library(NbClust)

# 设置边距为: c(bottom, left, top, right)
par(mar = c(2,2,2,2))    

# 依据一些指标来掂量聚类的适合性。# 默认状况下，它查看从 2 个聚类到 15 个聚类的状况 # 破费工夫

休伯特指数是一种确定聚类数量的图形办法。
在休伯特指数图中，咱们寻找一个显著的拐点，对应于测量值的明显增加，即休伯特指数第二差值图中的显著峰值。

在 D 指数的图表中，咱们寻找一个重要的拐点（D 指数第二差值图中的重要峰值），对应于测量值的显著减少。

##  
## ******************************************************************* 
## * 在所有指数中:                                                
## * 10 proposed 2 as the best number of clusters 
## * 8 proposed 3 as the best number of clusters 
## * 2 proposed 4 as the best number of clusters 
## * 1 proposed 5 as the best number of clusters 
## * 1 proposed 8 as the best number of clusters 
## * 1 proposed 14 as the best number of clusters 
## * 1 proposed 15 as the best number of clusters 
## 
##                    ***** 论断 *****                            
##  
## * 依据少数规定，集群的最佳数量是 2 
##  
##  
## *******************************************************************

画一个直方图，示意各种指数对聚类数量的投票状况。
在 26 个指数中，大多数（10 个）投票给 2 个聚类，8 个投票给 3 个聚类，其余 8 个（26-10-8）投票给其余数量的聚类。
直方图，断点 =15，因为咱们的算法是查看 2 到 15 个聚类的。

hist(Best.nc)

卡林斯基指标相似于寻找群组间方差 / 群组内方差的比率。

KM(Data, 1, 10)  # 对聚类 1 至 10 的测试


# sortg = TRUE：将 iris 对象（行）作为其组别成员的函数排序
# 在热图中用色彩示意组成员类
# 排序是为了产生一个更容易解释的图表。# 两个图。一个是热图，另一个是聚类数目与值（=BC/WC）。

modelData$results\[2,\]   # 针对 BC/WC 值的聚类

# 那么，这些数值中哪一个是最大的？BC/WC 应尽可能的大
which.max(modelData$results\[2,\])

# 计算并返回通过应用欧氏间隔测量法计算的间隔矩阵，计算数据矩阵中各行之间的间隔。# 获取 silhoutte 系数
silhouette (cluster, dis)

# 计算并返回通过应用欧氏间隔测量法计算的间隔矩阵，计算数据矩阵中各行之间的间隔。# 获取 silhoutte 系数
silhouette (cluster, dis)

计算 iris 和随机数据集的霍普金统计值

# 1. 给定一个数字向量或数据框架的一列 依据其最小值和最大值生成对立的随机数
  runif(length(x), min(x), (max(x)))

# 2.  通过在每一列上利用函数生成随机数据
apply(iris\[,-5\], 2, genx)  

# 3. 将两个数据集标准化
scale(iris)   # 默认, center = T, scale = T

# 4. 计算数据集的霍普金斯统计数字
hopkins_stat

# 也能够用函数 hopkins() 计算。hopkins(iris)

# 5. 计算随机数据集的霍普金斯统计量
hopkins_stat

最受欢迎的见解

1. R 语言 k -Shape 算法股票价格工夫序列聚类

2. R 语言中不同类型的聚类办法比拟

3. R 语言对用电负荷工夫序列数据进行 K -medoids 聚类建模和 GAM 回归

4. r 语言鸢尾花 iris 数据集的档次聚类

5.Python Monte Carlo K-Means 聚类实战

6. 用 R 进行网站评论文本开掘聚类

7. 用于 NLP 的 Python：应用 Keras 的多标签文本 LSTM 神经网络

8. R 语言对 MNIST 数据集剖析摸索手写数字分类数据

9. R 语言基于 Keras 的小数据集深度学习图像分类

原文链接：http://tecdat.cn/?p=22879

数据集概述

这个数据集的给定列是:

根本可视化

火山图

聚类数据 :: 办法 -1

聚类数据 :: 办法 -2

休伯特指数

D 指数

聚类数据 :: 办法 -3

用 Silhoutte 图对数据进行聚类 :: 办法 -4

先试着 2 个类

试用 8 个聚类

剖析聚类趋势