关于visual-studio:KMEANS均值聚类和层次聚类亚洲国家地区生活幸福质量异同可视化分析和选择最佳聚类数附代码数据

浏览全文：http://tecdat.cn/?p=24198

《世界幸福报告》是可继续倒退解决方案网络的年度报告，该报告应用盖洛普世界民意调查的调查结果钻研了150多个国家/地区的生存品质。报告的重点是幸福的社交环境。

在本我的项目中，我将应用世界幸福报告中的数据来摸索亚洲22个国家或地区，并通过查看每个国家的阶梯得分，社会反对，衰弱的冀望寿命，自由选择生存，慷慨，对糜烂的认识以及人均GDP，来摸索亚洲22个国家的类似和不同之处。我将应用两种聚类办法，即k均值和档次聚类，以及轮廓剖析来验证每种聚类办法。

将要剖析的国家和地区是：

asia <- w filer(gepl('Asia', Rgion)

探索性数据分析

国家和地区比拟

grd.rrnge(
  ggplt(sia, es(rerder(x=fctor(国家名称), 阶梯得分, FN=min), 
                      y=阶梯得分, fill=区域指标)))

东亚国家的阶梯得分较高，冀望寿命衰弱，人均GDP较高且慷慨度较低。
南亚国家的阶梯得分，社会反对，衰弱的冀望寿命和人均GDP往往较低。
东南亚国家往往有很高的自由度，能够抉择生存和慷慨解囊。

scterhst(
    aia, x = "社会反对", y = "阶梯得分",
    clor = "区域指标"
    titl = "阶梯得分与社会反对"
  )

南亚的社会反对中位数，阶梯得分和人均GDP最低。
东亚的社会反对中位数，阶梯得分，人均GDP和衰弱的冀望寿命最高。
东南亚的均匀衰弱寿命中位数最低，对糜烂的中位数最高。
东南亚的人均GDP很高，冀望寿命衰弱，对糜烂的认识也很低（新加坡）。
东亚有离群点样本对政府的理解低（香港）。

点击题目查阅往期内容

R语言鸢尾花iris数据集的档次聚类分析

左右滑动查看更多

聚类分析

这些国家会属于不同的群体吗？在本节中，咱们将应用聚类（一种无监督的学习办法，该办法基于相似性对对象进行分组）来找到国家组，其中组内的国家类似。我将应用两种办法进行聚类：分层聚类和K-Means聚类。首先，咱们如何辨认这些群体？掂量对象之间相似性的一种办法是测量对象之间的数学间隔。一种常见的间隔度量是欧几里得间隔。

欧氏间隔

咱们将应用欧几里得间隔找到彼此最类似的国家，并将它们分组在一起。

aply(z,2,mean) # 计算列的平均值
aply(z,2,sd) # 计算列的标准差
scale(z,ceter=means,scae=sds) # 标准化

# 计算间隔矩阵
dsae = dit(nor) # 计算欧几里得的间隔

欧几里得间隔矩阵为：

仿佛国家2（新加坡）和国家22（阿富汗）彼此最不类似。
15国（中国）和11国（越南）彼此最类似。

咱们如何抉择最佳聚类数？

肘法

for (i in 2:20) ws<- sum(kmens(nr, cetrs=i)$wthns)

咱们的指标是缩小聚类外部的变异性，以便将类似的对象分组在一起，并减少聚类之间的变异性，以使相异的对象相距甚远。WSS（在组平方和内），它在聚类变动内进行度量，

在WSS图中，聚类数位于x轴上，而WSS位于y轴上。高的WSS值意味着聚类中的变化很大，反之亦然。咱们看到，在1、2和3个聚类之后，WSS的降落很大。然而，在4个聚类之后，WSS的降落很小。因而，聚类的最佳数目为k = 4（曲线的弯头）。

K均值聚类

k均值算法如下所示：

为每个观测值随机调配一个从1到K的数字，这些数字用作观测值的初始聚类调配。
迭代直到聚类调配进行更改：

（a）对于K个聚类中的每一个，计算聚类质心。

（b）将每个观测值调配给质心最靠近的聚类（应用欧几里得间隔定义）。

聚类成员和后果

k均值聚类的后果是：

#聚类成员
asa$Cuter <- c$luser

聚类图在散点图中绘制k均值聚类和前两个主成分（维度1和2）。

clstr(lstdaa = nr, cluter = cluser,col=ola), theme = hme_lsic()) + 
  title("K-Means聚类图")

聚类之间没有重叠。
聚类2与其余聚类之间存在很多分隔。
聚类1、3和4之间的距离较小。
前两个组成部分解释了点变异的70％。

聚类1有2个国家，其聚类平方和之内很小（在聚类变异性内）。
聚类2有1个国家。
具备14个国家/地区的第3组在类内变异性中最高。
聚类4有5个国家，在聚类变异性中排名第二。
聚类平方和与平方和之比为61.6％，十分适合。

这四个聚类的规范平均值是：

long <- melt(t(agreate(nor, )
plot(long,roup = cluster)+point(se=3)

自由选择生存，社会反对和阶梯得分之间的差别很大。这些变量仿佛对聚类造成奉献最大。

回忆一下，聚类成员资格为：

第1类：印度尼西亚，缅甸

第2类：阿富汗

第3类：菲律宾，泰国，巴基斯坦，蒙古，马来西亚，越南，马尔代夫，尼泊尔，中国，老挝，柬埔寨，孟加拉国，斯里兰卡，印度

第4类：中国台湾地区，新加坡，韩国，日本，中国香港特别行政区

绝对于其余聚类：

聚类1的特点是

很高：慷慨
高：自由选择生存
个别：人均GDP，对糜烂的认识，慷慨，衰弱的冀望寿命，社会反对，阶梯得分

聚类2的特点是

高：对糜烂的认识
低：人均国内生产总值，慷慨
非常低：自由选择生存，衰弱的冀望寿命，社会反对，阶梯得分

聚类3的特点是

高：自由选择生存
个别：人均GDP，对糜烂的认识，慷慨，衰弱的冀望寿命，社会反对，阶梯得分

聚类4的特点是

很高：人均GDP，冀望寿命衰弱
高：社会反对，阶梯得分
个别：自由选择生存
低：慷慨
极低：对糜烂的认识

轮廓图

咱们应用轮廓图来查看每个国家在其聚类中的情况。轮廓宽度掂量一个聚类中每个观测值绝对于其余聚类的靠近水平。较高的轮廓宽度示意该观测值很好地聚类，而靠近0的值示意该观测值在两个聚类之间匹配，而负值示意该观测值在谬误的聚类中。

plt(soette((cluser), diace), 
     mn = "轮廓系数图")

大多数国家仿佛都十分好。
第3组中的国家4（泰国）和第4组中的国家5（韩国）的轮廓宽度非常低。

档次聚类

分层聚类将组映射到称为树状图的层次结构中。分层聚类算法如下所示：

从n个察看值和所有成对不相似性的度量（例如欧几里得间隔）开始。将每个察看值视为本人的聚类。

（a）查看i个聚类之间所有成对的聚类间差别，并找出最类似的一对聚类。退出这两个聚类。这两个簇之间的差别表明它们在树状图中的高度。

（b）计算其余聚类之间的新的成对聚类间差别。对于分层聚类，咱们在聚类之间应用间隔函数，称为链接函数。不同类型的链接：

齐全（最大聚类间差别）：计算聚类1中的观测值与聚类2中的观测值之间的所有成对差别，并记录这些差别中最大的一个。

plt(aslus.c,laes=国家名称,min='全链接 k=4', hang=-1)
rct.clut(whasi.hclusc, k=4)

平均值（均值聚类间差别）：计算聚类1中的观测值与聚类2中的观测值之间的所有成对差别，并记录这些差别的平均值。

全链接

上面的树状图显示了应用全链接的聚类层次结构。

custr(ist(dta = or, cuse = mer.a), ghe = teelsic)) +
  title("全链接 lusterPlot")

聚类1有16个国家。
聚类2有2个国家。
聚类3有3个国家。
聚类4有1个国家。
聚类4和其余聚类之间有很多距离。
聚类1、2和3之间的距离较小。
聚类1中的变异性仿佛很大。

轮廓图

plot(sloett(curee(asiahluc, 4), di), 
     col
     min = "全链接 轮廓系数图")

大多数国家仿佛都十分好。

16国（老挝）仿佛是第1组的异样值。
21国（印度）仿佛是第3组的异样值。

均匀链接

上面的树状图显示了应用均匀链接的聚类档次。

plt(s.hut.,abls=国家名称,min='均匀链接 k=4', hag=-1)
rec(hsth_asa.lus.a, k= boder)

聚类1有4个国家。
聚类2有1个国家。
聚类3有16个国家。
聚类4有1个国家。
应用均匀链接的聚类之间的变异性仿佛大于全链接的变异性。

custr(ist(dta = or, cuse = mer.a), ghe = teelsic)) +
  title("均匀链接 lusterPlot")

轮廓图

plt(sltte(ctee(sia.lust, 4), istce), 
     cl=cl[:5], 
     min = "均匀链接 轮廓系数图")

大多数国家仿佛都十分好。
第1组中的8地区（香港）的轮廓宽度十分小。

探讨

k均值，全链接和均匀链接的均匀轮廓宽度别离为0.26、0.23和0.27。在全链接中，聚类之间的间隔小于k均值和均匀链接之间的间隔，并且两个国家不太适宜它们的聚类。因而，k均值和均匀链接办法仿佛比全链接具备更好的拟合度。比拟k均值，全链接和均匀链接，所有办法都与阿富汗匹配，成为其本人的聚类。然而，每种办法的聚类成员资格有所不同。例如，在k均值和全链接中，印度尼西亚和缅甸与大多数南亚和东南亚国家不在同一聚类中，而印度尼西亚和缅甸与在均匀链接中的国家在同一聚类中。

K-means和分层聚类都产生了相当好的聚类后果。在应用大型数据集和解释聚类后果时，K-means有一个劣势。K-means的毛病是它须要在开始时指定数字数据和聚类的数量。另外，因为初始聚类调配在开始时是随机的，当你再次运行该算法时，聚类后果是不同的。另一方面，分层聚类对数字和分类数据都无效，不须要先指定聚类的数量，而且每次运行算法都会失去雷同的后果。它还能产生树状图，这对帮忙你了解数据的构造和筛选聚类的数量很有用。然而，一些毛病是，对于大数据来说，它没有k-means那么无效，而且从树状图中确定聚类的数量变得很艰难。

本文摘选《 R语言KMEANS均值聚类和档次聚类：亚洲国家地区生存幸福品质异同可视化剖析和抉择最佳聚类数 》，点击“浏览原文”获取全文残缺材料。

点击题目查阅往期内容

PYTHON实现谱聚类算法和扭转聚类簇数后果可视化比拟
无限混合模型聚类FMM、狭义线性回归模型GLM混合利用剖析威士忌市场和钻研专利申请数据
R语言多维数据档次聚类散点图矩阵、配对图、平行坐标图、树状图可视化城市宏观经济指标数据
r语言无限正态混合模型EM算法的分层聚类、分类和密度估计及可视化
Python Monte Carlo K-Means聚类实战钻研
R语言k-Shape工夫序列聚类办法对股票价格工夫序列聚类
R语言对用电负荷工夫序列数据进行K-medoids聚类建模和GAM回归
R语言谱聚类、K-MEANS聚类分析非线性环状数据比拟
R语言实现k-means聚类优化的分层抽样(Stratified Sampling)剖析各市镇的人口
R语言聚类有效性：确定最优聚类数剖析IRIS鸢尾花数据和可视化Python、R对小说进行文本开掘和档次聚类可视化剖析案例
R语言k-means聚类、档次聚类、主成分（PCA）降维及可视化剖析鸢尾花iris数据集
R语言无限混合模型(FMM,finite mixture model)EM算法聚类分析间歇泉喷发工夫
R语言用温度对城市档次聚类、kmean聚类、主成分剖析和Voronoi图可视化
R语言k-Shape工夫序列聚类办法对股票价格工夫序列聚类
R语言中的SOM(自组织映射神经网络)对NBA球员聚类分析
R语言简单网络分析：聚类（社区检测）和可视化
R语言中的划分聚类模型
基于模型的聚类和R语言中的高斯混合模型
r语言聚类分析：k-means和档次聚类
SAS用K-Means 聚类最优k值的选取和剖析
用R语言进行网站评论文本开掘聚类
基于LDA主题模型聚类的商品评论文本开掘
R语言鸢尾花iris数据集的档次聚类分析
R语言对用电负荷工夫序列数据进行K-medoids聚类建模和GAM回归
R语言聚类算法的利用实例

关于visual-studio:KMEANS均值聚类和层次聚类亚洲国家地区生活幸福质量异同可视化分析和选择最佳聚类数附代码数据

浏览全文：http://tecdat.cn/?p=24198

探索性数据分析

国家和地区比拟

聚类分析

欧氏间隔

咱们如何抉择最佳聚类数？

肘法

K均值聚类

聚类成员和后果

轮廓图

档次聚类

全链接

轮廓图

均匀链接

轮廓图

探讨

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于visual-studio:KMEANS均值聚类和层次聚类亚洲国家地区生活幸福质量异同可视化分析和选择最佳聚类数附代码数据

浏览全文：http://tecdat.cn/?p=24198

探索性数据分析

国家和地区比拟

聚类分析

欧氏间隔

咱们如何抉择最佳聚类数？

肘法

K均值聚类

聚类成员和后果

轮廓图

档次聚类

全链接

轮廓图

均匀链接

轮廓图

探讨

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复