原文链接：http://tecdat.cn/?p=25196

指标

对“NCI60”（癌细胞系微阵列）数据应用聚类办法，目标是找出察看后果是否聚类为不同类型的癌症。K_means 和档次聚类的比拟。


#数据信息

dim(nata)


nci.labs\[1:4\]

 

table(ncibs)

 

ncbs


scale # 标准化变量（均值零和标准差一）。

全链接、均匀链接和单链接之间的比拟。


plot(hclust,ylab = "",cex=".5",col="blue") #应用全链接对察看后果进行档次聚类。

  

plot(hclust,cex=".5",col="blue") #应用均匀链接对察看进行分层聚类。


par(mfrow=c(1,1))
plot(hclust,col="blue") #应用单链接对察看进行分层聚类。

单链接聚类偏向于产生拖尾的聚类：十分大的聚类，单个观测值一个接一个地附在其中。

另一方面，全链接和均匀链接往往会产生更加均衡和有吸引力的聚类。

因为这个起因，全链接和均匀链接比单链接档次聚类更受欢迎。繁多癌症类型中的细胞系的确偏向于聚在一起，只管聚类并不完满。

 

table(hrs,ncbs)

咱们能够看到一个清晰的模式，即所有白血病细胞系都属于聚类 3，其中乳腺癌细胞散布在三个不同的聚类中。

 

plot(hcu)
abline

参数 h=139 在高度 139 处绘制一条水平线。这是 4 个不同聚类的划分后果。

out

 


kout=kmea
table

咱们看到，取得档次聚类和 K-means 聚类的四个聚类产生了不同的后果。K-means 聚类中的簇 2 与档次聚类中的簇 3 雷同。另一方面，其余集群不同。

分层聚类在 NCI60 数据集中能比 K-means聚类失去更好的聚类。

最受欢迎的见解

1.R语言k-Shape算法股票价格工夫序列聚类

2.R语言中不同类型的聚类办法比拟

3.R语言对用电负荷工夫序列数据进行K-medoids聚类建模和GAM回归

4.r语言鸢尾花iris数据集的档次聚类

5.Python Monte Carlo K-Means聚类实战

6.用R进行网站评论文本开掘聚类

7.用于NLP的Python：应用Keras的多标签文本LSTM神经网络

8.R语言对MNIST数据集剖析摸索手写数字分类数据

9.R语言基于Keras的小数据集深度学习图像分类