关于数据挖掘:如何用潜类别混合效应模型Latent-Class-Mixed-Model-LCMM分析老年痴呆年龄数据附代码数据

最近咱们被客户要求撰写对于 LCMM 的钻研报告，包含一些图形和统计输入。

线性混合模型假如 N 个受试者的群体是同质的，并且在群体程度上由独特的曲线 Xi(t)β 形容。

相比之下，潜在类别混合模型在于假如人口是异质的，并且由 G 潜在类别的受试者组成，其特色是 G 均匀轨迹曲线。

潜在类别成员由离散随机变量 ci 定义，如果主题 i 属于潜在类别 g (g = 1, …,G)，则该变量等于 g。变量 ci 是潜在的；依据协变量 Xci 应用多项逻辑模型形容其概率：

其中 ξ0g 是 g 类的截距，ξ1g 是与工夫无关协变量 Xci 的 q1 向量相干的类特定参数的 q1 向量。当没有协变量预测潜在类成员资格时，该模型将简化为特定于类的概率。

在波及潜在类别的模型中，能够对每个潜在类别中的主体进行后验分类。它基于类成员概率的后验计算，用于表征对象的分类以及评估模型的拟合优度（Proust-Lima et al. 2014 ).

应用贝叶斯定理计算后类成员概率作为给定收集信息的潜在类的概率。在纵向模型中，它们为主题 ii 和潜在类别 g 定义为：

其中： θ^G 是 G 潜在类模型中预计的参数向量。

在此示例中，咱们钻研了认知标记的二次轨迹，即在老年人样本（纳入时年龄 65 岁及以上）中进行事后标准化（具备高斯分布）并对繁难智能量表评分 (MMSE)进行了长达 15 年的跟踪钻研，可依据教育程度进行调整。只管能够思考任何回归，但模型在此处不思考交互作用。

这是来自原始前瞻性钻研的 500 名受试者的子样本。该数据集不能用于流行病学目标，因为子样本不代表原始队列（特地是痴呆病例已被适度采样）。

用于可视化数据（仅限表头）：

head(data)

在不同的工夫收集不同的标记。在数据集中，时间尺度是年龄。

获取数据的疾速摘要：

summary(data)

一些变量有缺失值。

繁难智能量表评分通常被视为后果。繁难智能量表评分是一种十分常见的神经心理学测试，用于测量老年人的整体认知性能。它具备十分不对称的散布，因而通常将其归一化以利用于高斯变量的办法。预归一化函数实现的：

 hist(MMSE)

hist(norm)

要建模单个反复测量是：

color <-ID

xyplot

咱们思考以下潜在类线性混合模型，其中 g 示意类别，i 示意主题，j 示意反复测量：

其中_：_

和

固定效应局部 是混合和 ; 在 随机效应局部 是 ,

因为繁难智能量表评分的散布十分歪斜，咱们应用标准化版本

normMMSE <- norm

依据年龄进行剖析。为了防止任何数值问题，咱们从新调整和标准化年龄：

 

age65 <- (age - 65)/10

咱们为 norm 拟合线性混合模型：

 
lme(norm ~ age65+I(age65^2)+CEP rand =~ age65+I(age65^2) subject = 'ID'

从通过假如单个潜在类预计的模型，咱们当初能够搜寻异构详情。下一行提供了应用 G>1 时初始值对 2 个潜在类的模型的预计。

 

#思考到 2 类的预计
lme(ng = 2, mix=~age65+I(age65^2))

初始值在参数中指定 B。该选项会 B=m1 依据 1 类模型（此处为m1）的最大似然预计主动生成初始值。不指定B 或不指定 B=NULL 是不举荐的，因为它会导致 G=1G=1 的模型的外部预预计（即 m1），这可能会显着减少计算工夫。

点击题目查阅往期内容

R 语言如何用潜类别混合效应模型（LCMM）剖析抑郁症状

左右滑动查看更多

在以下示例中，初始值由用户预先指定：方差协方差的参数取自线性混合模型的估计值，并针对特定于类尝试任意初始值：

lme(B = c(0, 50, 30, 3, -1))

另一种办法是从 1 类模型的估计值的渐近散布中随机生成初始值（此处为 m1）：

lme(rand(m1))

最初，grid 可用于运行主动网格搜寻。在接下来的示例中，G=2 和 G=3 类，hlme 从 100 个初始值的随机向量运行最多 30 次迭代。而后，仅针对在 30 次迭代后提供最佳对数似然的偏离实现预计程序。

grid(lme iter=30,)

举荐应用此办法，因为它能够在反复次数足够大且迭代次数相当大时更好地摸索参数空间。

一组模型（通常具备不同数量的潜在类）的预计过程能够用来概括 summary。

summary

咱们在这里总结了咱们之前预计的 6 个模型。咱们能够看到所有的 2-class 模型都收敛于同一个预计点。

这个例子阐明了定义“潜在类的最佳数量”的复杂性。事实上，依据举荐的 BIC，应该保留 2 类模型（因为它提供了最低值）。然而 AIC 和 Size 调整 BIC（波及较小的惩办）都反对 3-class 模型。熵也有利于 3 类模型，因为它具备更好的判断能力（熵靠近 1）。最初，3-class 模型创立了一个十分小的类，这通常不是那些搜寻和感兴趣的异质性。在这个例子中，依据统计和临床规范，2- 或 3- 能够保留类模型。上面，咱们保留了最终输入形容的 2-class 模型。

 

summary(m2d)

只有模型中指定的所有协变量都蕴含在数据框中，就能够为数据框中蕴含的任何数据计算特定于类的预测。在接下来的几行中，通过生成年龄值介于 65 和 95 之间的向量并将 CEP 定义为 1 或 0，来创立这样的数据框。计算和绘制预测。

data.frame(age=seq(65,95,l=50))

在点估计中为每个类计算预测：

predictY

而后能够绘制预测：

plot(prd0)

plot(prd1,add=TRUE)

如果咱们想理解可变性，咱们能够计算具备置信区间的预测并绘制它们：

plot(IC,, shades=TRUE)

最初，1 类、2 类和 3 类模型的预测轨迹能够一起示意在下图中：

par(mfrow=c(1,3))

plot(pr1)

plot(pr0  

plot(pr3)

 

plot(m)

为了评估所选模型的拟合，咱们同时绘制每个潜在类别的察看值和预测值。

plot(m, shad = TRUE)

该图在此处显示了对数据的十分好的拟合。

模型的后验分类通过以下形式取得：

postprob(m2d)

Class 1 由 62 个样本 (12.4%) 组成，而 438 个样本属于第二类。

咱们还能够通过以下形式查看无关模型分别能力的信息：

后验分类表：分类在 class 1 (resp. class 2) 中的对象属于该类的均匀概率为 0.8054 (resp. 0.8730)。这显示了类别的良好辨别。
高于阈值的分类的比例：这里 90.18%（别离为 61.29%）的第 1 类（别离为 2）的后验概率大于 70%。
- *

本文摘选 《R 语言潜类别混合效应模型 (Latent Class Mixed Model ,LCMM) 剖析老年痴呆年龄数据》，点击“浏览原文”获取全文残缺材料。

点击题目查阅往期内容

R 语言贝叶斯狭义线性混合（多层次 / 程度 / 嵌套）模型 GLMM、逻辑回归剖析教育留级影响因素数据 R 语言预计多元标记的潜过程混合效应模型（lcmm）剖析心理测试的认知过程
R 语言因子实验设计 nlme 拟合非线性混合模型剖析有机农业施氮程度
R 语言非线性混合效应 NLME 模型 (固定效应 & 随机效应) 反抗哮喘药物茶碱动力学钻研
R 语言用线性混合效应（多程度 / 档次 / 嵌套）模型剖析腔调高下与礼貌态度的关系
R 语言 LME4 混合效应模型钻研老师的受欢迎水平 R 语言 nlme、nlmer、lme4 用（非）线性混合模型 non-linear mixed model 剖析藻类数据实例
R 语言混合线性模型、多层次模型、回归模型剖析学生均匀问题 GPA 和可视化
R 语言线性混合效应模型（固定效应 & 随机效应）和交互可视化 3 案例
R 语言用 lme4 多层次（混合效应）狭义线性模型（GLM），逻辑回归剖析教育留级考察数据 R 语言线性混合效应模型实战案例
R 语言混合效应逻辑回归（mixed effects logistic）模型剖析肺癌数据
R 语言如何用潜类别混合效应模型（LCMM）剖析抑郁症状
R 语言基于 copula 的贝叶斯分层混合模型的诊断准确性钻研
R 语言建设和可视化混合效应模型 mixed effect model
R 语言 LME4 混合效应模型钻研老师的受欢迎水平
R 语言线性混合效应模型实战案例
R 语言用 Rshiny 摸索 lme4 狭义线性混合模型（GLMM）和线性混合模型（LMM）
R 语言基于 copula 的贝叶斯分层混合模型的诊断准确性钻研
R 语言如何解决线性混合模型中畸形拟合 (Singular fit) 的问题
基于 R 语言的 lmer 混合线性回归模型
R 语言用 WinBUGS 软件对学术能力测验建设档次（分层）贝叶斯模型
R 语言分层线性模型案例
R 语言用 WinBUGS 软件对学术能力测验（SAT）建设分层模型
应用 SAS，Stata，HLM，R，SPSS 和 Mplus 的分层线性模型 HLM
R 语言用 WinBUGS 软件对学术能力测验建设档次（分层）贝叶斯模型
SPSS 中的多层（等级）线性模型 Multilevel linear models 钻研整容手术数据
用 SPSS 预计 HLM 多层（档次）线性模型模型

关于数据挖掘:如何用潜类别混合效应模型Latent-Class-Mixed-Model-LCMM分析老年痴呆年龄数据附代码数据

全文下载链接：http://tecdat.cn/?p=24647

背景和定义

潜类别混合模型

后验分类

高斯数据示例

数据集

子样本

繁难智能量表评分后果

思考的模型

因变量：归一化繁难智能量表评分

预计只有一个类的模型 (G=1)

预计具备多个类的模型 (G > 1)

初始值

用户预先指定的值

随机生成的值

网格搜寻

抉择最佳模型

2-class 线性混合模型的形容

模型概要

模型的预测

最终潜在类混合模型的评估

残差图

预测与察看的图表

分类