关于数据挖掘:R语言kmeans聚类层次聚类主成分PCA降维及可视化分析鸢尾花iris数据集附代码数据

38次阅读

共计 3673 个字符,预计需要花费 10 分钟才能阅读完成。

原文链接:http://tecdat.cn/?p=22838

最近咱们被客户要求撰写对于鸢尾花 iris 数据集的钻研报告,包含一些图形和统计输入。

本练习问题包含:应用 R 中的鸢尾花数据集

(a)局部:k-means 聚类
应用 k -means 聚类法将数据会聚成 2 组。
 画一个图来显示聚类的状况
应用 k -means 聚类法将数据会聚成 3 组。
画一个图来显示聚类的状况
(b)局部:档次聚类
应用全连贯法对察看值进行聚类。
应用均匀和单连贯对观测值进行聚类。
绘制上述聚类办法的树状图。

应用 R 中的鸢尾花数据集 k -means 聚类

探讨和 / 或思考对数据进行标准化。

data.frame("均匀"=apply(iris[,1:4], 2, mean
  "标准差"=apply(iris[,1:4], 2, sd)

在这种状况下,咱们将标准化数据,因为花瓣的宽度比其余所有的测量值小得多。

向下滑动查看后果▼

应用 k -means 聚类法将数据会聚成 2 组

应用足够大的 nstart,更容易失去对应最小 RSS 值的模型。

kmean(iris, nstart = 100)

向下滑动查看后果▼

画一个图来显示聚类的状况

# 绘制数据
plot(iris, y = Sepal.Length, x = Sepal.Width)

为了更好地思考花瓣的长度和宽度,应用 PCA 首先升高维度会更适合。

#  创立模型

PCA.mod<- PCA(x = iris)

#把预测的组放在最初
PCA$Pred <-Pred

#绘制图表
plot(PC, y = PC1, x = PC2, col = Pred)

为了更好地解释 PCA 图,思考到主成分的方差。

## 看一下次要成分所解释的方差

for (i in 1:nrow) {pca[["PC"]][i] <- paste("PC", i)
}

plot(data = pca,x = 主成分, y = 方差比例, group = 1)

数据中 80% 的方差是由前两个主成分解释的,所以这是一个相当好的数据可视化。

向下滑动查看后果▼

 应用 k -means 聚类法将数据会聚成 3 组

在之前的主成分图中,聚类看起来非常明显,因为实际上咱们晓得应该有三个组,咱们能够执行三个聚类的模型。

kmean(input, centers = 3, nstart = 100)
# 制作数据
groupPred %>% print()

向下滑动查看后果▼

画一个图来显示聚类的状况

#  绘制数据
plot(萼片长度, 萼片宽度, col =pred)

向下滑动查看后果▼

PCA 图

为了更好地思考花瓣的长度和宽度,应用 PCA 首先缩小维度是比拟适合的。

# 创立模型
prcomp(x = iris)

#把预测的组放在最初
PCADF$KMeans 预测 <- Pred

#绘制图表
plot(PCA, y = PC1, x = PC2,col = "预测 \n 聚类", caption = "鸢尾花数据的前两个主成分,椭圆代表 90% 的失常置信度,应用 K -means 算法对 2 个类进行预测") +

向下滑动查看后果▼


点击题目查阅往期内容

R 语言鸢尾花 iris 数据集的档次聚类分析

左右滑动查看更多

01

02

03

04

PCA 双曲线图

萼片长度~ 萼片宽度图的拆散度很正当,为了抉择在 X、Y 上应用哪些变量,咱们能够应用双曲线图。

biplot(PCA)

这个双曲线图显示,花瓣长度和萼片宽度能够解释数据中的大部分差别,更适合的图是:

plot(iris, col = KM 预测)

评估所有可能的组合。

iris %>%
  pivot_longer()  %>% 
plot(col = KM 预测, facet_grid(name ~ ., scales = 'free_y', space = 'free_y',) +

向下滑动查看后果▼

档次聚类

应用全连贯法对观测值进行聚类。

能够应用全连贯法对观测值进行聚类(留神对数据进行标准化)。

hclust(dst, method = 'complete')

向下滑动查看后果▼

应用均匀和单连贯对察看后果进行聚类。

 hclust(dst, method = 'average')
hclust(dst, method = 'single')

向下滑动查看后果▼

绘制预测图

当初模型曾经建设,通过指定所需的组数,对树状图切断进行划分。

#  数据
iris$KMeans 预测 <- groupPred


# 绘制数据
plot(iris,col = KMeans 预测))

向下滑动查看后果▼

绘制上述聚类办法的树状图

对树状图着色。

type<- c("均匀", "全", "单")

for (hc in models) plot(hc, cex = 0.3)

向下滑动查看后果▼


点击文末 “浏览原文”

获取全文残缺代码数据资料。

本文选自《R 语言 k -means 聚类、档次聚类、主成分(PCA)降维及可视化剖析鸢尾花 iris 数据集》。

点击题目查阅往期内容

SPSS 用 K 均值聚类 KMEANS、决策树、逻辑回归和 T 测验钻研通勤出行交通形式抉择的影响因素考察数据分析
数据分享 | R 语言主成分 PCA、因子分析、聚类对地区经济钻研剖析重庆市经济指标
数据分享 | R 语言用主成分 PCA、逻辑回归、决策树、随机森林剖析心脏病数据并高维可视化
R 语言逻辑回归 logistic 模型剖析泰坦尼克 titanic 数据集预测生还状况 R 语言是否对二分连续变量执行逻辑回归
R 语言用 lme4 多层次(混合效应)狭义线性模型(GLM),逻辑回归剖析教育留级考察数据
R 语言随机森林 RandomForest、逻辑回归 Logisitc 预测心脏病数据和可视化剖析
R 语言基于 Bagging 分类的逻辑回归 (Logistic Regression)、决策树、森林剖析心脏病患者
R 语言逻辑回归(Logistic 回归)模型分类预测病人冠心病危险
R 语言用部分加权回归(Lowess) 对 logistic 逻辑回归诊断和残差剖析 R 语言用主成分 PCA、逻辑回归、决策树、随机森林剖析心脏病数据并高维可视化
R 语言用线性模型进行臭氧预测:加权泊松回归,一般最小二乘,加权负二项式模型,多重插补缺失值 R 语言 Bootstrap 的岭回归和自适应 LASSO 回归可视化
R 语言中回归和分类模型抉择的性能指标
R 语言多元工夫序列滚动预测:ARIMA、回归、ARIMAX 模型剖析
R 语言用 lme4 多层次(混合效应)狭义线性模型(GLM),逻辑回归剖析教育留级考察数据
R 语言计量经济学:虚构变量 (哑变量) 在线性回归模型中的利用
R 语言 线性混合效应模型实战案例
R 语言混合效应逻辑回归(mixed effects logistic)模型剖析肺癌数据
R 语言如何用潜类别混合效应模型(LCMM)剖析抑郁症状
R 语言基于 copula 的贝叶斯分层混合模型的诊断准确性钻研
R 语言建设和可视化混合效应模型 mixed effect model
R 语言 LME4 混合效应模型钻研老师的受欢迎水平
R 语言 线性混合效应模型实战案例
R 语言用 Rshiny 摸索 lme4 狭义线性混合模型(GLMM)和线性混合模型(LMM)
R 语言基于 copula 的贝叶斯分层混合模型的诊断准确性钻研
R 语言如何解决线性混合模型中畸形拟合 (Singular fit) 的问题
基于 R 语言的 lmer 混合线性回归模型
R 语言用 WinBUGS 软件对学术能力测验建设档次(分层)贝叶斯模型
R 语言分层线性模型案例
R 语言用 WinBUGS 软件对学术能力测验(SAT)建设分层模型
应用 SAS,Stata,HLM,R,SPSS 和 Mplus 的分层线性模型 HLM
R 语言用 WinBUGS 软件对学术能力测验建设档次(分层)贝叶斯模型
SPSS 中的多层(等级)线性模型 Multilevel linear models 钻研整容手术数据
用 SPSS 预计 HLM 多层(档次)线性模型模型 R 语言高维数据的主成分 pca、t-SNE 算法降维与可视化剖析案例报告
R 语言惩办 logistic 逻辑回归(LASSO, 岭回归)高维变量抉择的分类模型案例
R 语言有 RStan 的多维验证性因子分析(CFA)
主成分剖析 (PCA) 原理及 R 语言实现及剖析实例
R 语言无监督学习:PCA 主成分剖析可视化
R 语言应用 Metropolis- Hasting 抽样算法进行逻辑回归
R 语言多元 Logistic 逻辑回归 利用案例
R 语言自适应 LASSO 多项式回归、二元逻辑回归和岭回归利用剖析
R 语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测
R 语言基于树的办法:决策树,随机森林,Bagging,加强树
spss modeler 用决策树神经网络预测 ST 的股票
R 语言中自编基尼系数的 CART 回归决策树的实现
python 在 Scikit-learn 中用决策树和随机森林预测 NBA 获胜者
matlab 应用分位数随机森林(QRF)回归树检测异样值
基于随机森林、svm、CNN 机器学习的风控欺诈辨认模型
R 语言惩办 logistic 逻辑回归(LASSO, 岭回归)高维变量抉择的分类模型案例
R 语言用规范最小二乘 OLS,狭义相加模型 GAM,样条函数进行逻辑回归 LOGISTIC 分

正文完
 0