乐趣区

关于visual-studio:KMEANS均值聚类和层次聚类亚洲国家地区生活幸福质量异同可视化分析和选择最佳聚类数附代码数据

浏览全文:http://tecdat.cn/?p=24198

《世界幸福报告》是可继续倒退解决方案网络的年度报告,该报告应用盖洛普世界民意调查的调查结果钻研了 150 多个国家 / 地区的生存品质。报告的重点是幸福的社交环境。

在本我的项目中,我将应用世界幸福报告中的数据来摸索亚洲 22 个国家或地区,并通过查看每个国家的阶梯得分,社会反对,衰弱的冀望寿命,自由选择生存,慷慨,对糜烂的认识以及人均 GDP,来摸索亚洲 22 个国家的类似和不同之处。我将应用两种聚类办法,即 k 均值和档次聚类,以及轮廓剖析来验证每种聚类办法。

将要剖析的国家和地区是:

asia <- w filer(gepl('Asia', Rgion)

探索性数据分析

相关矩阵

pair(aia[,-c(1,2)], sal=TUE,col,hst.ol)
  • 阶梯得分,社会反对,生存抉择的自在以及对糜烂的认识的散布是左偏的。
  • 慷慨和人均 GDP 的散布是右偏的。
  • 衰弱冀望寿命的偏差大概是对称的。
  • 两者之间存在很强的正相干关系:
  • 阶梯分数和社会反对
  • 衰弱冀望寿命和人均 GDP
  • 之间存在强烈的负相关关系:
  • 对糜烂的认识和人均 GDP
  • 之间存在中等正相干:
  • 阶梯得分和衰弱冀望寿命
  • 社会反对与衰弱冀望寿命
  • 人均 GDP 较高的国家往往对糜烂的认识较低,对衰弱的冀望寿命,社会反对和阶梯得分较高。

国家和地区比拟

grd.rrnge(ggplt(sia, es(rerder(x=fctor(国家名称), 阶梯得分, FN=min), 
                      y= 阶梯得分, fill= 区域指标)))
  • 东亚国家的阶梯得分较高,冀望寿命衰弱,人均 GDP 较高且慷慨度较低。
  • 南亚国家的阶梯得分,社会反对,衰弱的冀望寿命和人均 GDP 往往较低。
  • 东南亚国家往往有很高的自由度,能够抉择生存和慷慨解囊。
scterhst(
    aia, x = "社会反对", y = "阶梯得分",
    clor = "区域指标"
    titl = "阶梯得分与社会反对"
  )
  • 南亚的社会反对中位数,阶梯得分和人均 GDP 最低。
  • 东亚的社会反对中位数,阶梯得分,人均 GDP 和衰弱的冀望寿命最高。
  • 东南亚的均匀衰弱寿命中位数最低,对糜烂的中位数最高。
  • 东南亚的人均 GDP 很高,冀望寿命衰弱,对糜烂的认识也很低(新加坡)。
  • 东亚有离群点样本对政府的理解低(香港)。

点击题目查阅往期内容

R 语言鸢尾花 iris 数据集的档次聚类分析

左右滑动查看更多

01

02

03

04

聚类分析

这些国家会属于不同的群体吗?在本节中,咱们将应用聚类(一种无监督的学习办法,该办法基于相似性对对象进行分组)来找到国家组,其中组内的国家类似。我将应用两种办法进行聚类:分层聚类和 K -Means 聚类。首先,咱们如何辨认这些群体?掂量对象之间相似性的一种办法是测量对象之间的数学间隔。一种常见的间隔度量是欧几里得间隔。

欧氏间隔

咱们将应用欧几里得间隔找到彼此最类似的国家,并将它们分组在一起。

aply(z,2,mean) # 计算列的平均值
aply(z,2,sd) # 计算列的标准差
scale(z,ceter=means,scae=sds) # 标准化

# 计算间隔矩阵
dsae = dit(nor) # 计算欧几里得的间隔

欧几里得间隔矩阵为:

  • 仿佛国家 2(新加坡)和国家 22(阿富汗)彼此最不类似。
  • 15 国(中国)和 11 国(越南)彼此最类似。

咱们如何抉择最佳聚类数?

肘法

for (i in 2:20) ws<- sum(kmens(nr, cetrs=i)$wthns)

咱们的指标是缩小聚类外部的变异性,以便将类似的对象分组在一起,并减少聚类之间的变异性,以使相异的对象相距甚远。WSS(在组平方和内),它在聚类变动内进行度量,

在 WSS 图中,聚类数位于 x 轴上,而 WSS 位于 y 轴上。高的 WSS 值意味着聚类中的变化很大,反之亦然。咱们看到,在 1、2 和 3 个聚类之后,WSS 的降落很大。然而,在 4 个聚类之后,WSS 的降落很小。因而,聚类的最佳数目为 k = 4(曲线的弯头)。

K 均值聚类

k 均值算法如下所示:

  • 为每个观测值随机调配一个从 1 到 K 的数字,这些数字用作观测值的初始聚类调配。
  • 迭代直到聚类调配进行更改:

(a)对于 K 个聚类中的每一个,计算聚类质心。

(b)将每个观测值调配给质心最靠近的聚类(应用欧几里得间隔定义)。

聚类成员和后果

k 均值聚类的后果是:

# 聚类成员
asa$Cuter <- c$luser

聚类图在散点图中绘制 k 均值聚类和前两个主成分(维度 1 和 2)。

clstr(lstdaa = nr, cluter = cluser,col=ola), theme = hme_lsic()) + 
  title("K-Means 聚类图")
  • 聚类之间没有重叠。
  • 聚类 2 与其余聚类之间存在很多分隔。
  • 聚类 1、3 和 4 之间的距离较小。
  • 前两个组成部分解释了点变异的 70%。
  • 聚类 1 有 2 个国家,其聚类平方和之内很小(在聚类变异性内)。
  • 聚类 2 有 1 个国家。
  • 具备 14 个国家 / 地区的第 3 组在类内变异性中最高。
  • 聚类 4 有 5 个国家,在聚类变异性中排名第二。
  • 聚类平方和与平方和之比为 61.6%,十分适合。

这四个聚类的规范平均值是:

long <- melt(t(agreate(nor,)
plot(long,roup = cluster)+point(se=3)

自由选择生存,社会反对和阶梯得分之间的差别很大。这些变量仿佛对聚类造成奉献最大。

回忆一下,聚类成员资格为:

第 1 类:印度尼西亚,缅甸

第 2 类:阿富汗

第 3 类:菲律宾,泰国,巴基斯坦,蒙古,马来西亚,越南,马尔代夫,尼泊尔,中国,老挝,柬埔寨,孟加拉国,斯里兰卡,印度

第 4 类:中国台湾地区,新加坡,韩国,日本,中国香港特别行政区

绝对于其余聚类:

聚类 1 的特点是

  • 很高:慷慨
  • 高:自由选择生存
  • 个别:人均 GDP,对糜烂的认识,慷慨,衰弱的冀望寿命,社会反对,阶梯得分

聚类 2 的特点是

  • 高:对糜烂的认识
  • 低:人均国内生产总值,慷慨
  • 非常低:自由选择生存,衰弱的冀望寿命,社会反对,阶梯得分

聚类 3 的特点是

  • 高:自由选择生存
  • 个别:人均 GDP,对糜烂的认识,慷慨,衰弱的冀望寿命,社会反对,阶梯得分

聚类 4 的特点是

  • 很高:人均 GDP,冀望寿命衰弱
  • 高:社会反对,阶梯得分
  • 个别:自由选择生存
  • 低:慷慨
  • 极低:对糜烂的认识

轮廓图

咱们应用轮廓图来查看每个国家在其聚类中的情况。轮廓宽度掂量一个聚类中每个观测值绝对于其余聚类的靠近水平。较高的轮廓宽度示意该观测值很好地聚类,而靠近 0 的值示意该观测值在两个聚类之间匹配,而负值示意该观测值在谬误的聚类中。

plt(soette((cluser), diace), 
     mn = "轮廓系数图")
  • 大多数国家仿佛都十分好。
  • 第 3 组中的国家 4(泰国)和第 4 组中的国家 5(韩国)的轮廓宽度非常低。

档次聚类

分层聚类将组映射到称为树状图的层次结构中。分层聚类算法如下所示:

  • 从 n 个察看值和所有成对不相似性的度量(例如欧几里得间隔)开始。将每个察看值视为本人的聚类。

(a)查看 i 个聚类之间所有成对的聚类间差别,并找出最类似的一对聚类。退出这两个聚类。这两个簇之间的差别表明它们在树状图中的高度。

(b)计算其余聚类之间的新的成对聚类间差别。对于分层聚类,咱们在聚类之间应用间隔函数,称为链接函数。不同类型的链接:

  • 齐全(最大聚类间差别):计算聚类 1 中的观测值与聚类 2 中的观测值之间的所有成对差别,并记录这些差别中最大的一个。
plt(aslus.c,laes= 国家名称,min='全链接 k=4', hang=-1)
rct.clut(whasi.hclusc, k=4)
  • 平均值(均值聚类间差别):计算聚类 1 中的观测值与聚类 2 中的观测值之间的所有成对差别,并记录这些差别的平均值。

全链接

上面的树状图显示了应用全链接的聚类层次结构。

custr(ist(dta = or, cuse = mer.a), ghe = teelsic)) +
  title("全链接 lusterPlot")
  • 聚类 1 有 16 个国家。
  • 聚类 2 有 2 个国家。
  • 聚类 3 有 3 个国家。
  • 聚类 4 有 1 个国家。
  • 聚类 4 和其余聚类之间有很多距离。
  • 聚类 1、2 和 3 之间的距离较小。
  • 聚类 1 中的变异性仿佛很大。

轮廓图

plot(sloett(curee(asiahluc, 4), di), 
     col
     min = "全链接 轮廓系数图")

大多数国家仿佛都十分好。

  • 16 国(老挝)仿佛是第 1 组的异样值。
  • 21 国(印度)仿佛是第 3 组的异样值。

均匀链接

上面的树状图显示了应用均匀链接的聚类档次。

plt(s.hut.,abls= 国家名称,min='均匀链接 k=4', hag=-1)
rec(hsth_asa.lus.a, k= boder)
  • 聚类 1 有 4 个国家。
  • 聚类 2 有 1 个国家。
  • 聚类 3 有 16 个国家。
  • 聚类 4 有 1 个国家。
  • 应用均匀链接的聚类之间的变异性仿佛大于全链接的变异性。
custr(ist(dta = or, cuse = mer.a), ghe = teelsic)) +
  title("均匀链接 lusterPlot")

轮廓图

plt(sltte(ctee(sia.lust, 4), istce), 
     cl=cl[:5], 
     min = "均匀链接 轮廓系数图")
  • 大多数国家仿佛都十分好。
  • 第 1 组中的 8 地区(香港)的轮廓宽度十分小。

探讨

k 均值,全链接和均匀链接的均匀轮廓宽度别离为 0.26、0.23 和 0.27。在全链接中,聚类之间的间隔小于 k 均值和均匀链接之间的间隔,并且两个国家不太适宜它们的聚类。因而,k 均值和均匀链接办法仿佛比全链接具备更好的拟合度。比拟 k 均值,全链接和均匀链接,所有办法都与阿富汗匹配,成为其本人的聚类。然而,每种办法的聚类成员资格有所不同。例如,在 k 均值和全链接中,印度尼西亚和缅甸与大多数南亚和东南亚国家不在同一聚类中,而印度尼西亚和缅甸与在均匀链接中的国家在同一聚类中。

K-means 和分层聚类都产生了相当好的聚类后果。在应用大型数据集和解释聚类后果时,K-means 有一个劣势。K-means 的毛病是它须要在开始时指定数字数据和聚类的数量。另外,因为初始聚类调配在开始时是随机的,当你再次运行该算法时,聚类后果是不同的。另一方面,分层聚类对数字和分类数据都无效,不须要先指定聚类的数量,而且每次运行算法都会失去雷同的后果。它还能产生树状图,这对帮忙你了解数据的构造和筛选聚类的数量很有用。然而,一些毛病是,对于大数据来说,它没有 k -means 那么无效,而且从树状图中确定聚类的数量变得很艰难。


本文摘选 R 语言 KMEANS 均值聚类和档次聚类:亚洲国家地区生存幸福品质异同可视化剖析和抉择最佳聚类数 ,点击“ 浏览原文”获取全文残缺材料。

点击题目查阅往期内容

PYTHON 实现谱聚类算法和扭转聚类簇数后果可视化比拟
无限混合模型聚类 FMM、狭义线性回归模型 GLM 混合利用剖析威士忌市场和钻研专利申请数据
R 语言多维数据档次聚类散点图矩阵、配对图、平行坐标图、树状图可视化城市宏观经济指标数据
r 语言无限正态混合模型 EM 算法的分层聚类、分类和密度估计及可视化
Python Monte Carlo K-Means 聚类实战钻研
R 语言 k -Shape 工夫序列聚类办法对股票价格工夫序列聚类
R 语言对用电负荷工夫序列数据进行 K -medoids 聚类建模和 GAM 回归
R 语言谱聚类、K-MEANS 聚类分析非线性环状数据比拟
R 语言实现 k -means 聚类优化的分层抽样 (Stratified Sampling) 剖析各市镇的人口
R 语言聚类有效性:确定最优聚类数剖析 IRIS 鸢尾花数据和可视化 Python、R 对小说进行文本开掘和档次聚类可视化剖析案例
R 语言 k -means 聚类、档次聚类、主成分(PCA)降维及可视化剖析鸢尾花 iris 数据集
R 语言无限混合模型 (FMM,finite mixture model)EM 算法聚类分析间歇泉喷发工夫
R 语言用温度对城市档次聚类、kmean 聚类、主成分剖析和 Voronoi 图可视化
R 语言 k -Shape 工夫序列聚类办法对股票价格工夫序列聚类
R 语言中的 SOM(自组织映射神经网络) 对 NBA 球员聚类分析
R 语言简单网络分析:聚类(社区检测)和可视化
R 语言中的划分聚类模型
基于模型的聚类和 R 语言中的高斯混合模型
r 语言聚类分析:k-means 和档次聚类
SAS 用 K -Means 聚类最优 k 值的选取和剖析
用 R 语言进行网站评论文本开掘聚类
基于 LDA 主题模型聚类的商品评论文本开掘
R 语言鸢尾花 iris 数据集的档次聚类分析
R 语言对用电负荷工夫序列数据进行 K -medoids 聚类建模和 GAM 回归
R 语言聚类算法的利用实例

退出移动版