共计 971 个字符,预计需要花费 3 分钟才能阅读完成。
原文链接:http://tecdat.cn/?p=25196
指标
对“NCI60”(癌细胞系微阵列)数据应用聚类办法,目标是找出察看后果是否聚类为不同类型的癌症。K_means 和档次聚类的比拟。
#数据信息
dim(nata)
nci.labs\[1:4\]
table(ncibs)
ncbs
scale # 标准化变量(均值零和标准差一)。
全链接、均匀链接和单链接之间的比拟。
plot(hclust,ylab = "",cex=".5",col="blue") #应用全链接对察看后果进行档次聚类。
plot(hclust,cex=".5",col="blue") #应用均匀链接对察看进行分层聚类。
par(mfrow=c(1,1))
plot(hclust,col="blue") #应用单链接对察看进行分层聚类。
察看后果
单链接聚类偏向于产生拖尾的聚类:十分大的聚类,单个观测值一个接一个地附在其中。
另一方面,全链接和均匀链接往往会产生更加均衡和有吸引力的聚类。
因为这个起因,全链接和均匀链接比单链接档次聚类更受欢迎。繁多癌症类型中的细胞系的确偏向于聚在一起,只管聚类并不完满。
table(hrs,ncbs)
咱们能够看到一个清晰的模式,即所有白血病细胞系都属于聚类 3,其中乳腺癌细胞散布在三个不同的聚类中。
plot(hcu)
abline
参数 h=139 在高度 139 处绘制一条水平线。这是 4 个不同聚类的划分后果。
out
kout=kmea
table
咱们看到,取得档次聚类和 K-means 聚类的四个聚类产生了不同的后果。K-means 聚类中的簇 2 与档次聚类中的簇 3 雷同。另一方面,其余集群不同。
论断
分层聚类在 NCI60 数据集中能比 K-means 聚类失去更好的聚类。
最受欢迎的见解
1.R 语言 k -Shape 算法股票价格工夫序列聚类
2.R 语言中不同类型的聚类办法比拟
3.R 语言对用电负荷工夫序列数据进行 K -medoids 聚类建模和 GAM 回归
4.r 语言鸢尾花 iris 数据集的档次聚类
5.Python Monte Carlo K-Means 聚类实战
6. 用 R 进行网站评论文本开掘聚类
7. 用于 NLP 的 Python:应用 Keras 的多标签文本 LSTM 神经网络
8.R 语言对 MNIST 数据集剖析 摸索手写数字分类数据
9.R 语言基于 Keras 的小数据集深度学习图像分类