乐趣区

关于数据挖掘:R语言潜类别混合效应模型Latent-Class-Mixed-Model-LCMM分析老年痴呆年龄数据

原文链接:http://tecdat.cn/?p=24647

背景和定义

线性混合模型假如 N 个受试者的群体是同质的,并且在群体程度上由独特的曲线 Xi(t)β 形容。相比之下,潜在类别混合模型在于假如人口是异质的,并且由 G 潜在类别的受试者组成,其特色是 G 均匀轨迹曲线。

潜类别混合模型

潜在类别成员由离散随机变量 ci 定义,如果主题 i 属于潜在类别 g (g = 1, …,G),则该变量等于 g。变量 ci 是潜在的;依据协变量 Xci 应用多项逻辑模型形容其概率:

其中 ξ0g 是 g 类的截距,ξ1g 是与工夫无关协变量 Xci 的 q1 向量相干的类特定参数的 q1 向量。当没有协变量预测潜在类成员资格时,该模型将简化为特定于类的概率。

对于间断和高斯变量,Y 的轨迹通过线性混合模型有条件地定义为潜在类。因而,以类 g 为条件,在 j 时为主题 i 定义模型:

其中 X2ij、X3ij 和 Zij 是协变量的向量,它们别离与类 β 上的常见固定效应、特定于类的固定效应 γg 以及称为 big 的单个随机效应 bi|ci=g 相干,其散布当初是特定于类的。X2 和 X3 不能有公共变量。

后验分类

在波及潜在类别的模型中,能够对每个潜在类别中的主体进行后验分类。它基于类成员概率的后验计算,用于表征对象的分类以及评估模型的拟合优度(Proust-Lima et al. 2014  ).

应用贝叶斯定理计算后类成员概率作为给定收集信息的潜在类的概率。在纵向模型中,它们为主题 ii 和潜在类别 g 定义为:

其中:  θ^G 是 G 潜在类模型中预计的参数向量。

高斯数据示例

在此示例中,咱们钻研了认知标记的二次轨迹,即在老年人样本(纳入时年龄 65 岁及以上)中事后标准化(具备高斯分布)的繁难智能量表评分 (MMSE )最多 15 年,可依据教育程度进行调整。只管能够思考任何回归,但模型在此处不思考交互作用。

数据集

子样本

这是来自原始前瞻性钻研 的 500 名受试者的子样本。该数据集不能用于流行病学目标,因为子样本不代表原始队列(特地是痴呆病例已被适度采样)。

数据采纳纵向格局,包含一些变量,例如 3 项心理测量测试 MMSE、BVRT、IST、抑郁症状量表 和变量 年龄、痴呆前的年龄、是否痴呆、教育程度和是否男性。

用于可视化数据(仅限表头):

head(data)

 

在不同的工夫收集不同的标记。在数据集中,时间尺度是年龄。

获取数据的疾速摘要:

summary(data)

 

一些变量有缺失值。

繁难智能量表评分后果

繁难智能量表评分通常被视为后果。繁难智能量表评分是一种十分常见的神经心理学测试,用于测量老年人的整体认知性能。它具备十分不对称的散布,因而通常将其归一化以利用于高斯变量的办法。预归一化函数实现的:

 hist(MMSE)

hist(norm)

要建模单个反复测量是:

color <-ID

xyplot

思考的模型

咱们思考以下潜在类线性混合模型,其中 g 示意类别,i 示意主题,j 示意反复测量:

其中_:_

 和 

_固定效应局部_ 是  混合  和 ; 在 _随机效应局部_ 是 ,

因变量:归一化 繁难智能量表评分

因为 繁难智能量表评分的散布十分歪斜,咱们应用标准化版本

normMMSE <- norm

预计只有一个类的模型 (G=1)

依据年龄进行剖析。为了防止任何数值问题,咱们从新调整和标准化年龄:

 

age65 <- (age - 65)/10

咱们为 norm 拟合线性混合模型:

 
lme(norm ~ age65+I(age65^2)+CEP rand =~ age65+I(age65^2) subject = 'ID'

预计具备多个类的模型 (G > 1)

从通过假如单个潜在类预计的模型,咱们当初能够搜寻异构详情。下一行提供了应用  G>1 时初始值对 2 个潜在类的模型的预计。

 

#思考到 2 类的预计
lme(ng = 2, mix=~age65+I(age65^2))

初始值

初始值在参数中指定 B。该选项会 B=m1 依据 1 类模型(此处为m1)的最大似然预计主动生成初始值。不指定B 或 不指定 B=NULL 是不举荐的,因为它会导致 G=1G=1 的模型的外部预预计(即 m1),这可能会显着减少计算工夫。

用户预先指定的值

在以下示例中,初始值由用户预先指定:方差协方差的参数取自线性混合模型的估计值,并针对特定于类尝试任意初始值:

lme(B = c(0, 50, 30, 3, -1))

随机生成的值

另一种办法是从 1 类模型的估计值的渐近散布中随机生成初始值(此处为 m1):

lme(rand(m1))

网格搜寻

最初,grid 可用于运行主动网格搜寻。在接下来的示例中,G=2 和 G=3 类,hlme 从 100 个初始值的随机向量运行最多 30 次迭代。而后,仅针对在 30 次迭代后提供最佳对数似然的偏离实现预计程序。

grid(lme iter=30,)

举荐应用此办法,因为它能够在反复次数足够大且迭代次数相当大时更好地摸索参数空间。

抉择最佳模型

一组模型(通常具备不同数量的潜在类)的预计过程能够用 来概括 summary

summary

咱们在这里总结了咱们之前预计的 6 个模型。咱们能够看到所有的 2-class 模型都收敛于同一个预计点。

这个例子阐明了定义“潜在类的最佳数量”的复杂性。事实上,依据举荐的 BIC,应该保留 2 类模型(因为它提供了最低值)。然而 AIC 和 Size 调整 BIC(波及较小的惩办)都反对 3-class 模型。熵也有利于 3 类模型,因为它具备更好的判断能力(熵靠近 1)。最初,3-class 模型创立了一个十分小的类,这通常不是那些搜寻和感兴趣的异质性。在这个例子中,依据统计和临床规范,2- 或 3- 能够保留类模型。上面,咱们保留了最终输入形容的 2-class 模型。

2-class 线性混合模型的形容

模型概要

 

summary(m2d)

模型的预测

只有模型中指定的所有协变量都蕴含在数据框中,就能够为数据框中蕴含的任何数据计算特定于类的预测。在接下来的几行中,通过生成年龄值介于 65 和 95 之间的向量并将 CEP 定义为 1 或 0,来创立这样的数据框。计算和绘制 预测。

data.frame(age=seq(65,95,l=50))

在点估计中为每个类计算预测:

predictY

而后能够绘制预测:

plot(prd0)

plot(prd1,add=TRUE)

如果咱们想理解可变性,咱们能够计算具备置信区间的预测并绘制它们:

plot(IC,, shades=TRUE)

最初,1 类、2 类和 3 类模型的预测轨迹能够一起示意在下图中:

par(mfrow=c(1,3))

plot(pr1)

plot(pr0  

plot(pr3)

最终潜在类混合模型的评估

残差图

 

plot(m)

预测与察看的图表

为了评估所选模型的拟合,咱们同时绘制每个潜在类别的察看值和预测值。

plot(m, shad = TRUE)

该图在此处显示了对数据的十分好的拟合。

分类

模型的后验分类通过以下形式取得:

postprob(m2d)

Class 1 由 62 个样本 (12.4%) 组成,而 438 个样本属于第二类。

咱们还能够通过以下形式查看无关模型分别能力的信息:

  • 后验分类表:分类在 class 1 (resp.  class 2) 中的对象属于该类的均匀概率为 0.8054 (resp. 0.8730)。这显示了类别的良好辨别。
  • 高于阈值的分类的比例:这里 90.18%(别离为 61.29%)的第 1 类(别离为 2)的后验概率大于 70%。

 

最受欢迎的见解

1. 基于 R 语言的 lmer 混合线性回归模型

2.R 语言用 Rshiny 摸索 lme4 狭义线性混合模型(GLMM)和线性混合模型(LMM)

3.R 语言线性混合效应模型实战案例

4.R 语言线性混合效应模型实战案例 2

5.R 语言线性混合效应模型实战案例

6. 线性混合效应模型 Linear Mixed-Effects Models 的局部折叠 Gibbs 采样

7.R 语言 LME4 混合效应模型钻研老师的受欢迎水平

8.R 语言中基于混合数据抽样 (MIDAS) 回归的 HAR-RV 模型预测 GDP 增长回归的 HAR-RV 模型预测 GDP 增长 ”)

9. 应用 SAS,Stata,HLM,R,SPSS 和 Mplus 的分层线性模型 HLM

退出移动版