原文链接:http://tecdat.cn/?p=20960
为了阐明档次聚类技术和 k - 均值,我应用了了城市温度数据集,其中包含几个城市的月平均气温。
咱们有 15 个城市,每月进行一次观测
boxplot(temp[,1:12],main="月平均温度")
因为方差看起来相当稳固,咱们不会将这里的变量“标准化”,
> apply(月份,2,sd)
为了失去一个档次聚类分析,应用实例
hclust(dist , method = "ward")
另一种抉择是应用
> plot(h2)
在这里,咱们用主成分剖析将察看后果可视化。咱们这里还有一个主动抉择类的数目,这里是 3 个。咱们能够失去组的形容
或间接
cutree(cah,3)
咱们也能够本人可视化这些类,
PCA(X,scale.unit=FALSE)
plot(ind$coord[,1:2],col="white")
text(ind$coord[,1],acp$ind$coord[,2],
能够绘制出这些簇的中心点
> points(PT$Dim.1,PT$Dim.2,pch=19)
如果咱们在这些核心四周增加_Voronoi_集,咱们看到的是两头的点,恰好是三个区域的交点
vormo(PT$Dim.1,PT$Dim.2)
plot(V,add=TRUE)
要可视化这些区域,请应用_Voronoi 图_,它又叫泰森多边形或 Dirichlet 图,它是由一组由连贯两邻点直线的垂直平分线组成的间断多边形组成。
p=function(x,y){+ which.min((PT$Dim.1-x)^2+(PT$Dim.2-y)^2)
image(vx,vy,z,col=c(rgb(1,0,0,.2),
实际上,这三组(和这三个区域)也是咱们用 k - 均值算法失去的,
kmeans(coord[,1:2],3)
K-means clustering
with 3 clusters of sizes 3, 7, 5
因为咱们有一些空间数据,咱们能够在地图上把它们可视化
points(Long,Lati,col=groups.3)
或者,为了可视化这些区域,应用
for(i in 1:3)
+ Ellipse(Long[groups.3==i],
最受欢迎的见解
1. R 语言 k -Shape 算法股票价格工夫序列聚类
2. R 语言中不同类型的聚类办法比拟
3. R 语言对用电负荷工夫序列数据进行 K -medoids 聚类建模和 GAM 回归
4. r 语言鸢尾花 iris 数据集的档次聚类
5.Python Monte Carlo K-Means 聚类实战
6. 用 R 进行网站评论文本开掘聚类
7. 用于 NLP 的 Python:应用 Keras 的多标签文本 LSTM 神经网络
8. R 语言对 MNIST 数据集剖析 摸索手写数字分类数据
9. R 语言基于 Keras 的小数据集深度学习图像分类