关于数据挖掘:R语言EM算法和高斯混合模型的实现

46次阅读

共计 1102 个字符,预计需要花费 3 分钟才能阅读完成。

原文链接:http://tecdat.cn/?p=3433

原文出处:拓端数据部落公众号

本文咱们探讨冀望最大化实践,利用和评估基于冀望最大化的聚类。

软件包

数据

咱们将应用 mclust 软件包附带的“糖尿病”数据。

data(diabetes)



summary(diabetes)



## class glucose insulin sspg## Chemical:36 Min. : 70 Min. : 45.0 Min. : 10.0## Normal :76 1st Qu.: 90 1st Qu.: 352.0 1st Qu.:118.0## Overt :33 Median : 97 Median : 403.0 Median :156.0## Mean :122 Mean : 540.8 Mean :186.1## 3rd Qu.:112 3rd Qu.: 558.0 3rd Qu.:221.0## Max. :353 Max. :1568.0 Max. :748.0

冀望最大化(EM)

冀望最大化(EM)算法是用于找到最大似然的或在统计模型参数,其中该模型依赖于未察看到的潜变量最大后验(MAP)预计的迭代办法。冀望最大化(EM)可能是无监督学习最罕用的算法。

似然函数

似然函数找到给定数据的最佳模型。

冀望最大化(EM)算法

假如咱们翻转硬币并失去以下内容 – 0,1,1,0,0,1,1,0,0,1。咱们能够抉择伯努利散布

或者,如果咱们有以厘米为单位的人的身高(男性和女性)的数据。高度遵循失常的散布,但男性(均匀)比女性高,因而这表明两个高斯分布的混合模型。

贝叶斯信息准则(BIC)

以糖尿病数据为例

EM 集群与糖尿病数据应用 mclust。log.likelihood:这是 BIC 值的对数似然值



n:这是 X 点的数量



df:这是自由度



BIC:这是贝叶斯信息规范; 低是好的



ICL:综合残缺 X 可能性 - BIC 的分类版本。clPairs(X,class.d)

EM 的绘图命令会生成以下四个绘图:

BIC 值用于抉择簇的数量

聚类图

分类不确定性的图表

簇的轨道图


参考文献

1.R 语言 k -Shape 算法股票价格工夫序列聚类

2.R 语言中不同类型的聚类办法比拟

3.R 语言对用电负荷工夫序列数据进行 K -medoids 聚类建模和 GAM 回归

4.r 语言鸢尾花 iris 数据集的档次聚类

5.Python Monte Carlo K-Means 聚类实战

6. 用 R 进行网站评论文本开掘聚类

7. 用于 NLP 的 Python:应用 Keras 的多标签文本 LSTM 神经网络

8.R 语言对 MNIST 数据集剖析 摸索手写数字分类数据

9.R 语言基于 Keras 的小数据集深度学习图像分类

正文完
 0