关于数据挖掘:R语言EM算法和高斯混合模型的实现

原文链接：http://tecdat.cn/?p=3433

原文出处：拓端数据部落公众号

本文咱们探讨冀望最大化实践，利用和评估基于冀望最大化的聚类。

软件包

数据

咱们将应用mclust软件包附带的“糖尿病”数据。

data(diabetes)



summary(diabetes)



## class glucose insulin sspg## Chemical:36 Min. : 70 Min. : 45.0 Min. : 10.0## Normal :76 1st Qu.: 90 1st Qu.: 352.0 1st Qu.:118.0## Overt :33 Median : 97 Median : 403.0 Median :156.0## Mean :122 Mean : 540.8 Mean :186.1## 3rd Qu.:112 3rd Qu.: 558.0 3rd Qu.:221.0## Max. :353 Max. :1568.0 Max. :748.0

冀望最大化（EM）

冀望最大化（EM）算法是用于找到最大似然的或在统计模型参数，其中该模型依赖于未察看到的潜变量最大后验（MAP）预计的迭代办法。冀望最大化（EM）可能是无监督学习最罕用的算法。

似然函数

似然函数找到给定数据的最佳模型。

冀望最大化（EM）算法

假如咱们翻转硬币并失去以下内容 – 0,1,1,0,0,1,1,0,0,1。咱们能够抉择伯努利散布

或者，如果咱们有以厘米为单位的人的身高（男性和女性）的数据。高度遵循失常的散布，但男性（均匀）比女性高，因而这表明两个高斯分布的混合模型。

贝叶斯信息准则（BIC）

以糖尿病数据为例

EM集群与糖尿病数据应用mclust。



log.likelihood：这是BIC值的对数似然值



n：这是X点的数量



df：这是自由度



BIC：这是贝叶斯信息规范; 低是好的



ICL：综合残缺X可能性 - BIC的分类版本。



clPairs(X,class.d)

EM的绘图命令会生成以下四个绘图：

BIC值用于抉择簇的数量

聚类图

分类不确定性的图表

簇的轨道图

参考文献

1.R语言k-Shape算法股票价格工夫序列聚类

2.R语言中不同类型的聚类办法比拟

3.R语言对用电负荷工夫序列数据进行K-medoids聚类建模和GAM回归

4.r语言鸢尾花iris数据集的档次聚类

5.Python Monte Carlo K-Means聚类实战

6.用R进行网站评论文本开掘聚类

7.用于NLP的Python：应用Keras的多标签文本LSTM神经网络

8.R语言对MNIST数据集剖析摸索手写数字分类数据

9.R语言基于Keras的小数据集深度学习图像分类

关于数据挖掘:R语言EM算法和高斯混合模型的实现

原文链接：http://tecdat.cn/?p=3433

原文出处：拓端数据部落公众号

软件包

数据

冀望最大化（EM）

似然函数

冀望最大化（EM）算法

贝叶斯信息准则（BIC）

EM的绘图命令会生成以下四个绘图：

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于数据挖掘:R语言EM算法和高斯混合模型的实现

原文链接 ：http://tecdat.cn/?p=3433

原文出处：拓端数据部落公众号

软件包

数据

冀望最大化（EM）

似然函数

冀望最大化（EM）算法

贝叶斯信息准则（BIC）

EM的绘图命令会生成以下四个绘图：

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

原文链接：http://tecdat.cn/?p=3433

发表回复取消回复