关于数据挖掘:R语言有限混合模型聚类FMM广义线性回归模型GLM混合应用分析威士忌市场和研究专利申请支出数据附代码数据

最近咱们被客户要求撰写对于无限混合模型聚类 FMM 的钻研报告，包含一些图形和统计输入。

无限混合模型是对未察看到的异质性建模或近似个别散布函数的风行办法。它们利用于许多不同的畛域，例如天文学、生物学、医学或营销。本文给出了这些模型的概述以及许多利用示例。

无限混合模型是对未察看到的异质性建模或近似个别散布函数的风行办法。它们利用于许多不同的畛域，例如天文学、生物学、医学或营销。最近的专着 McLachlan 和 Peel (2000) 以及 Frühwirth-Schnatter (2006) 中给出了这些模型的概述以及许多利用示例。

无限混合模型由 K 个不同重量的凸组合给出，即重量的权重为非负且总和为 1。对于每个组件，假如它遵循参数散布或由更简单的模型给出，例如狭义线性模型 (GLM)。上面咱们思考无限混合密度 h(·|·) 与 K 个重量、因变量 y 和（可选）自变量 x：

其中 ∀w, α：

和

咱们假如重量散布 f(·|·) 来自具备重量特定参数 ϑk 的雷同散布族。重量权重或先验类别概率 πk 可选地取决于随同变量 w 和参数 α，并通过多项 logit 模型进行建模，例如 Dayton 和 Macready (1988) 中的倡议。McLachlan 和 Peel (2000, p. 145) 中也形容了相似的模型类。该模型能够应用 EM 算法（参见 Dempster 等人，1977 年；McLachlan 和 Peel，2000 年）进行 ML 预计或应用 MCMC 办法进行贝叶斯剖析（参见例如 Frühwirth-Schnatter，2006 年）。

上面咱们将展现两个应用该包的示例。第一个示例演示基于模型的聚类，第二个示例给出了拟合狭义线性回归模型的混合的利用。

以下数据集参考了 Simmons 媒体和市场钻研。它蕴含去年应用威士忌品牌的所有家庭，并提供了往年 21 个威士忌品牌的品牌应用状况的二元关联矩阵。咱们首先加载包和数据集。威士忌数据集蕴含来自 2218 个家庭的察看后果。图 1 中给出了每个品牌的绝对应用频率。提供了其余品牌信息，表明威士忌的类型：混合威士忌或繁多麦芽威士忌。


R> set.seed(102)

图 1：威士忌品牌的绝对频率。

咱们将二项式散布的混合拟合到数据集，其中假如每个组件特定模型中的变量是独立的。应用随机初始化将 EM 算法反复 3 次，即每个察看值调配给一个后验概率为 0.9 和 0.1 的成分，否则以相等的概率抉择该成分。

mix(Ine ~ 1,
+ wets = ~ Freq, data = wey,
+ mol = FL,
+ conol = list(mior = 0.005),
+ k = 1:7, nrep = 3)

基于模型的聚类不应用解释变量，因而公式 Incidence \~ 1 的右侧是常数。咱们扭转 k = 1:7 的成分数量。对于每个不同数量成分的对数似然的最佳解决方案在类“stepFlexmix”的对象中返回。控制参数可用于管制 EM 算法的拟合。应用 minprior 指定成分的最小绝对大小，在 EM 算法期间将删除低于此阈值的成分。

权重参数的应用容许仅应用惟一察看的数量进行拟合，这能够大大减少模型矩阵的大小，从而放慢预计过程。对于这个数据集，这意味着模型矩阵有 484 行而不是 2218 行。能够应用信息规范进行模型抉择，例如 BIC（参见 Fraley 和 Raftery，1998）。

R> BIC

best <- Model(mix, "BIC")

能够应用诸如 prior() 或 parameters() 之类的函数来查看预计的参数。

R> prior

R> parameters

每种成分的混合物拟合参数如图 2 所示。能够看出，成分 4（占家庭的 1.1%）蕴含购买不同品牌数量最多的家庭，所有品牌的购买水平类似。来自第 5 成分的家庭 (8.5%) 也购买各种威士忌品牌，但偏向于防止繁多麦芽威士忌。成分 3 (43.1%) 的应用模式与成分 5 类似，但总体上购买的品牌较少。成分 1 (14.2%) 仿佛偏爱繁多麦芽威士忌，成分 2 (33%) 尤其喜爱其余品牌，不喜爱尊尼获加黑标。

专利数据包含从国家经济研究局的对于制药和生物医学公司的专利申请、研发收入和销售额（以百万元计）的 70 项察看后果。数据如图 3 所示。

Wang 等人抉择的最佳模型 (1998) 是三个泊松回归模型的无限混合，其中专利作为因变量，对数化的研发收入 lgRD 作为自变量，每个销售 RDS 的研发收入作为随同变量。该模型能够应用特定于成分的模型驱动程序在 R 中拟合，拟合 GLM 的无限混合。作为随同变量模型，用于多项 logit 模型，其中后验概率是因变量。

mix(Pats ~ RD,
+ k = 3, data ,
+ modlfaily = "poisson"),
+ coninom(~RS))

图 4 中给出了每个成分的观测值和拟合值。用于绘制观测值的色彩是依据应用最大后验概率的成分调配，这些概率是应用聚类取得的。

图 4：专利数据以及每个成分的拟合值。

在图 5 中给出了观测值的后验概率的根图。这是拟合函数返回的对象的默认图。它可用于任意混合模型，并批示混合对察看后果的聚类水平。为便于解释，后验概率小于 eps=10−4 的察看被省略。对于第三个重量的后验概率最大的观测值用不同的色彩着色。该图是应用以下命令生成的。

plot(pamix)

所有三个重量的后验都在 0 和 1 处具备模式，表明聚类拆散良好（Leisch，2004）。

图 5：后验概率的根图。

能够取得拟合混合物的更多详细信息，返回拟合值以及近似标准偏差和显着性测验，参见图 6。标准偏差只是近似值，因为它们是为每个成分独自确定的，而不是采纳思考到成分已被同时预计。图 7 中给出了预计系数。黑线示意（近似的）95% 置信区间。

plot(refit, byclu = FALSE)

参数 cluster 批示成分或不同变量是否用作面板的条件变量。

图 7：具备相应 95% 置信区间的成分特定模型的预计系数。

该图表明，即便第一个和第三个重量的 lgRD 系数类似，预计的系数在所有重量之间也有所不同。能够应用聚类参数的预计后验概率初始化 EM 算法。因为在这种状况下，第一个和第三个重量被限度为具备雷同的 lgRD 系数，在从新排序重量以使这两个重量彼此相邻后，拟合混合的后验用于初始化。应用 BIC 将批改后的模型与原始模型进行比拟。

fix(fam = "poisson",
+ nesd = list(k = c(1,2),
+ fora = ~lgRD))

 mix(Pats ~ 1,
+ cont = FLom(~RDS),
+ data , cluster

在这个例子中，原始模型是首选被 BIC 选中。

fit(patx)

本文提供了应用 EM 算法拟合无限混合模型的根底办法，以及用于模型抉择和模型诊断的工具。咱们曾经展现了该包在基于模型的聚类以及拟合无限混合模型回归剖析方面的利用。未来，咱们心愿实现新的模型序，例如，用于具备平滑项的狭义可加模型，以及扩大用于模型抉择、诊断和模型验证的工具。

最受欢迎的见解

1.R 语言 k -Shape 算法股票价格工夫序列聚类

2.R 语言中不同类型的聚类办法比拟

3.R 语言对用电负荷工夫序列数据进行 K -medoids 聚类建模和 GAM 回归

4.r 语言鸢尾花 iris 数据集的档次聚类

5.Python Monte Carlo K-Means 聚类实战

6. 用 R 进行网站评论文本开掘聚类

7. 用于 NLP 的 Python：应用 Keras 的多标签文本 LSTM 神经网络

8.R 语言对 MNIST 数据集剖析摸索手写数字分类数据

9.R 语言基于 Keras 的小数据集深度学习图像分类

我正在加入「创意开发投稿大赛」详情请看：掘金创意开发大赛来了！

关于数据挖掘:R语言有限混合模型聚类FMM广义线性回归模型GLM混合应用分析威士忌市场和研究专利申请支出数据附代码数据

原文链接：http://tecdat.cn/?p=24742

原文出处：拓端数据部落公众号

摘要

介绍

无限混合模型

示例利用

基于模型的聚类

混合回归剖析专利数据

概括