关于数据挖掘:如何用潜类别混合效应模型Latent-Class-Mixed-Model-LCMM分析老年痴呆年龄数据附代码数据

全文下载链接：http://tecdat.cn/?p=24647

最近咱们被客户要求撰写对于LCMM的钻研报告，包含一些图形和统计输入。

线性混合模型假如 N 个受试者的群体是同质的，并且在群体程度上由独特的曲线 Xi(t)β 形容。

背景和定义

相比之下，潜在类别混合模型在于假如人口是异质的，并且由 G 潜在类别的受试者组成，其特色是 G 均匀轨迹曲线。

潜类别混合模型

潜在类别成员由离散随机变量 ci 定义，如果主题 i 属于潜在类别 g (g = 1, …,G)，则该变量等于 g。变量 ci 是潜在的；依据协变量 Xci 应用多项逻辑模型形容其概率：

其中 ξ0g 是 g 类的截距，ξ1g 是与工夫无关协变量 Xci 的 q1 向量相干的类特定参数的 q1 向量。当没有协变量预测潜在类成员资格时，该模型将简化为特定于类的概率。

后验分类

在波及潜在类别的模型中，能够对每个潜在类别中的主体进行后验分类。它基于类成员概率的后验计算，用于表征对象的分类以及评估模型的拟合优度（Proust-Lima et al. 2014 ).

应用贝叶斯定理计算后类成员概率作为给定收集信息的潜在类的概率。在纵向模型中，它们为主题 ii 和潜在类别 g 定义为：

其中： θ^G 是 G 潜在类模型中预计的参数向量。

高斯数据示例

在此示例中，咱们钻研了认知标记的二次轨迹，即在老年人样本（纳入时年龄 65 岁及以上）中进行事后标准化（具备高斯分布）并对繁难智能量表评分 ( MMSE )进行了长达 15 年的跟踪钻研，可依据教育程度进行调整。只管能够思考任何回归，但模型在此处不思考交互作用。

数据集

子样本

这是来自原始前瞻性钻研的 500 名受试者的子样本。该数据集不能用于流行病学目标，因为子样本不代表原始队列（特地是痴呆病例已被适度采样）。

用于可视化数据（仅限表头）：

head(data)

在不同的工夫收集不同的标记。在数据集中，时间尺度是年龄。

获取数据的疾速摘要：

summary(data)

一些变量有缺失值。

繁难智能量表评分后果

繁难智能量表评分通常被视为后果。繁难智能量表评分是一种十分常见的神经心理学测试，用于测量老年人的整体认知性能。它具备十分不对称的散布，因而通常将其归一化以利用于高斯变量的办法。预归一化函数实现的：

 hist( MMSE )

hist( norm )

要建模单个反复测量是：

color <-ID

xyplot

思考的模型

咱们思考以下潜在类线性混合模型，其中 g 示意类别，i示意主题，j 示意反复测量：

其中_：_

和

固定效应局部 是混合和 ; 在 随机效应局部 是 ,

因变量：归一化繁难智能量表评分

因为繁难智能量表评分的散布十分歪斜，咱们应用标准化版本

normMMSE <- norm

预计只有一个类的模型 (G=1)

依据年龄进行剖析。为了防止任何数值问题，咱们从新调整和标准化年龄：

 

age65 <- (age - 65)/10

咱们为 norm 拟合线性混合模型：

 
lme(norm ~ age65+I(age65^2)+CEP rand =~ age65+I(age65^2) subject = 'ID'

预计具备多个类的模型 (G > 1)

从通过假如单个潜在类预计的模型，咱们当初能够搜寻异构详情。下一行提供了应用 G>1 时初始值对 2 个潜在类的模型的预计。

 

#思考到2类的预计
lme(ng = 2, mix=~age65+I(age65^2))

初始值

初始值在参数中指定 B。该选项会 B=m1 依据 1 类模型（此处为m1）的最大似然预计主动生成初始值。不指定B 或不指定 B=NULL 是不举荐的，因为它会导致 G=1G=1 的模型的外部预预计（即 m1），这可能会显着减少计算工夫。

点击题目查阅往期内容

R语言如何用潜类别混合效应模型（LCMM）剖析抑郁症状

左右滑动查看更多

用户预先指定的值

在以下示例中，初始值由用户预先指定：方差协方差的参数取自线性混合模型的估计值，并针对特定于类尝试任意初始值：

lme( B = c(0, 50, 30, 3, -1))

随机生成的值

另一种办法是从 1 类模型的估计值的渐近散布中随机生成初始值（此处为 m1）：

lme(rand(m1))

网格搜寻

最初，grid可用于运行主动网格搜寻。在接下来的示例中，G=2 和 G=3 类， hlme 从 100 个初始值的随机向量运行最多 30 次迭代。而后，仅针对在 30 次迭代后提供最佳对数似然的偏离实现预计程序。

grid(lme iter=30,)

举荐应用此办法，因为它能够在反复次数足够大且迭代次数相当大时更好地摸索参数空间。

抉择最佳模型

一组模型（通常具备不同数量的潜在类）的预计过程能够用来概括 summary。

summary

咱们在这里总结了咱们之前预计的 6 个模型。咱们能够看到所有的 2-class 模型都收敛于同一个预计点。

这个例子阐明了定义“潜在类的最佳数量”的复杂性。事实上，依据举荐的 BIC，应该保留 2 类模型（因为它提供了最低值）。然而 AIC 和 Size 调整 BIC（波及较小的惩办）都反对 3-class 模型。熵也有利于 3 类模型，因为它具备更好的判断能力（熵靠近 1）。最初，3-class 模型创立了一个十分小的类，这通常不是那些搜寻和感兴趣的异质性。在这个例子中，依据统计和临床规范，2-或 3-能够保留类模型。上面，咱们保留了最终输入形容的 2-class 模型。

2-class 线性混合模型的形容

模型概要

 

summary(m2d)

模型的预测

只有模型中指定的所有协变量都蕴含在数据框中，就能够为数据框中蕴含的任何数据计算特定于类的预测。在接下来的几行中，通过生成年龄值介于 65 和 95 之间的向量并将 CEP定义为 1 或 0，来创立这样的数据框。计算和绘制预测。

data.frame(age=seq(65,95,l=50))

在点估计中为每个类计算预测：

predictY

而后能够绘制预测：

plot(prd0)

plot(prd1,add=TRUE)

如果咱们想理解可变性，咱们能够计算具备置信区间的预测并绘制它们：

plot(IC,, shades=TRUE)

最初，1 类、2 类和 3 类模型的预测轨迹能够一起示意在下图中：

par(mfrow=c(1,3))

plot(pr1 )

plot(pr0  

plot(pr3)

最终潜在类混合模型的评估

残差图

 

plot(m)

预测与察看的图表

为了评估所选模型的拟合，咱们同时绘制每个潜在类别的察看值和预测值。

plot(m, shad = TRUE)

该图在此处显示了对数据的十分好的拟合。

分类

模型的后验分类通过以下形式取得：

postprob(m2d)

Class 1 由 62 个样本 (12.4%) 组成，而 438 个样本属于第二类。

咱们还能够通过以下形式查看无关模型分别能力的信息：

后验分类表：分类在 class 1 (resp. class 2) 中的对象属于该类的均匀概率为 0.8054 (resp. 0.8730)。这显示了类别的良好辨别。
高于阈值的分类的比例：这里 90.18%（别离为 61.29%）的第 1 类（别离为 2）的后验概率大于 70%。
- *

本文摘选 《R语言潜类别混合效应模型(Latent Class Mixed Model ,LCMM)剖析老年痴呆年龄数据》 ，点击“浏览原文”获取全文残缺材料。

点击题目查阅往期内容

R语言贝叶斯狭义线性混合（多层次/程度/嵌套）模型GLMM、逻辑回归剖析教育留级影响因素数据R语言预计多元标记的潜过程混合效应模型（lcmm）剖析心理测试的认知过程
R语言因子实验设计nlme拟合非线性混合模型剖析有机农业施氮程度
R语言非线性混合效应 NLME模型(固定效应&随机效应)反抗哮喘药物茶碱动力学钻研
R语言用线性混合效应（多程度/档次/嵌套）模型剖析腔调高下与礼貌态度的关系
R语言LME4混合效应模型钻研老师的受欢迎水平R语言nlme、nlmer、lme4用（非）线性混合模型non-linear mixed model剖析藻类数据实例
R语言混合线性模型、多层次模型、回归模型剖析学生均匀问题GPA和可视化
R语言线性混合效应模型（固定效应&随机效应）和交互可视化3案例
R语言用lme4多层次（混合效应）狭义线性模型（GLM），逻辑回归剖析教育留级考察数据R语言线性混合效应模型实战案例
R语言混合效应逻辑回归（mixed effects logistic）模型剖析肺癌数据
R语言如何用潜类别混合效应模型（LCMM）剖析抑郁症状
R语言基于copula的贝叶斯分层混合模型的诊断准确性钻研
R语言建设和可视化混合效应模型mixed effect model
R语言LME4混合效应模型钻研老师的受欢迎水平
R语言线性混合效应模型实战案例
R语言用Rshiny摸索lme4狭义线性混合模型（GLMM）和线性混合模型（LMM）
R语言基于copula的贝叶斯分层混合模型的诊断准确性钻研
R语言如何解决线性混合模型中畸形拟合(Singular fit)的问题
基于R语言的lmer混合线性回归模型
R语言用WinBUGS 软件对学术能力测验建设档次（分层）贝叶斯模型
R语言分层线性模型案例
R语言用WinBUGS 软件对学术能力测验（SAT）建设分层模型
应用SAS，Stata，HLM，R，SPSS和Mplus的分层线性模型HLM
R语言用WinBUGS 软件对学术能力测验建设档次（分层）贝叶斯模型
SPSS中的多层（等级）线性模型Multilevel linear models钻研整容手术数据
用SPSS预计HLM多层（档次）线性模型模型

关于数据挖掘:如何用潜类别混合效应模型Latent-Class-Mixed-Model-LCMM分析老年痴呆年龄数据附代码数据

全文下载链接：http://tecdat.cn/?p=24647

背景和定义

潜类别混合模型

后验分类

高斯数据示例

数据集

子样本

繁难智能量表评分后果

思考的模型

因变量：归一化繁难智能量表评分

预计只有一个类的模型 (G=1)

预计具备多个类的模型 (G > 1)

初始值

用户预先指定的值

随机生成的值

网格搜寻

抉择最佳模型

2-class 线性混合模型的形容

模型概要

模型的预测

最终潜在类混合模型的评估

残差图

预测与察看的图表

分类

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于数据挖掘:如何用潜类别混合效应模型Latent-Class-Mixed-Model-LCMM分析老年痴呆年龄数据附代码数据

全文下载链接：http://tecdat.cn/?p=24647

背景和定义

潜类别混合模型

后验分类

高斯数据示例

数据集

子样本

繁难智能量表评分后果

思考的模型

因变量：归一化 繁难智能量表评分

预计只有一个类的模型 (G=1)

预计具备多个类的模型 (G > 1)

初始值

用户预先指定的值

随机生成的值

网格搜寻

抉择最佳模型

2-class 线性混合模型的形容

模型概要

模型的预测

最终潜在类混合模型的评估

残差图

预测与察看的图表

分类

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

因变量：归一化繁难智能量表评分

发表回复取消回复