关于数据挖掘:R语言潜类别分类轨迹模型LCTM分析体重指数-BMI数据可视化

72次阅读

共计 3270 个字符,预计需要花费 9 分钟才能阅读完成。

原文链接:http://tecdat.cn/?p=26105 

潜类别轨迹建模 (LCTM) 是流行病学中一种绝对较新的办法,用于形容生命过程中的裸露,它将异质人群简化为同质模式或类别。然而,对于给定的数据集,能够依据类的数量、模型构造和轨迹属性得出不同模型的分数。

本文阐明了 LCTM 的根本用法,用于汇总拟合的潜在类轨迹模型对象的输入。要装置 R 包,请在 R 控制台中应用命令

例子

_目标_:通过将 BMI 建模为年龄函数,辨认具备不同轨迹的参与者亚组。依据迄今为止可用的文献,咱们假如初始 K=5 类 BMI 轨迹。

咱们应用体重指数 (BMI) 反复测量 10,000 集体的长格局数据框。

提供了一个示例(模仿)数据集 _bmi_ 来形容整个步骤,_bmi_long_ 是长格局版本。

蕴含的变量有:

id – 集体 ID
年龄 – BMI 测量的年龄,以年为单位
bmi – 集体在 T1、T2、T3 和 T4 工夫的体重指数,以 kg/m^2 为单位 true_class – 用于辨认模仿集体 BMI 数据的类别的标签从

加载数据

绘制数据

潜在类轨迹建模的八步示例

为了对纵向后果 yijk 进行建模,对于 k=1:K,类,对于个体 i,在工夫点 j,tj 能够应用许多建模抉择。咱们在这里给出方程来阐明这些,并依照复杂度减少的程序将它们命名为模型 A 到 G。

模型 A:无随机效应模型 | 固定效应同方差 | – 解释集体轨迹与其均匀类轨迹的任何偏差仅是因为随机误差

其中假如所有类的残差方差相等,

模型 B:具备特定类别残差的固定效应模型 | 异方差 | 与模型 A 雷同的解释,随机误差在不同的类别中可能更大或更小。

其中假如残差方差不同

模型 C:随机截距 解释是容许个体的初始体重不同,但假如每个班级成员遵循均匀轨迹的雷同形态和大小

对于 k=1:K, classes, 对于个体 i, 在工夫点 j, tj,

 其中随机效应散布

模型 D:随机斜率 容许个体在初始权重和均匀轨迹的斜率上有所不同,但曲率与轨迹

对于 k=1:K,类,对于个体 i,在工夫点 j , tj,

其中假如随机效应散布为

模型 E:随机二次 – 跨类的独特方差构造 容许个体在类内通过初始权重、形态和大小变动的额定自在,然而假如每个类具备雷同的变异量 R lcmm hlme/lcmm 对于 k=1:K, 类, 对于个体 i, 在工夫点 j, tj,

其中假如随机效应散布为 

模型 F 和 G:随机二次 – 容许方差构造跨类变动的比例束缚 减少模型 E 的灵活性,因为容许方差构造相差一个乘法因子,以容许某些类具备更大或更小的类内方差。该模型能够被认为是模型 G 的更简洁版本(将要预计的方差 - 协方差参数的数量从 6xK 参数缩小到 6+(K-1)个参数。

对于 k=1:K, classes, 对于个体 i, 在工夫点 j, tj,

其中假如随机效应散布为 

第一步:抉择随机效应构造的模式

为了确定随机效应的初始工作模型构造,能够遵循 Verbeke 和 Molenbergh 的基本原理来查看没有随机效应的模型中每个 K 类的标准化残差图的形态。

如果残差轮廓能够近似为平坦、直线或曲线,则别离思考随机截距、斜率或二次项。

为了拟合没有随机效应的潜在类模型。

hlmfixed(bmig)

而后,咱们将拟合模型输出 LCTM 中的 step1 函数,以查看特定类别的残差。

第 2 步

优化步骤 1 中的初步工作模型以确定最佳类数,测试 K=1,…7。能够依据最低贝叶斯信息规范 (BIC) 来抉择所选类别的数量。

set.seed(100)


for (i in 2:4) {mi <- lchlme( data.frame(bmg\[1:500,\])
  
}
#> Be patient, hlme is running ... 
#> The program took 0.29 seconds 
#> Be patient, hlme is running ... 
#> The program took 0.69 seconds 
#> Be patient, hlme is running ... 
#> The program took 2.3 seconds

modelut <-kable(lin)

第 3 步

应用步骤 2 中推导出的偏好 K 进一步细化模型,测试最优模型构造。咱们测试了七个模型,从简略的固定效应模型(模型 A)到容许残差在类别之间变动的根本办法(模型 B)到一组具备不同方差构造的五个随机效应模型(模型 CG)。
 

  • A(SAS、PROC TRAJ)

 
 

  • B 型(R,mmlcr)

调用 source() 命令。

mmldata = bmi_l01
#             )
# model_b$BIC

 
 

  • C(SAS、PROC TRAJ)

  • D 型(SAS、PROC TRAJ)

  • E 型 (R, lcmm)
model_e <- hlme(fixed = bmi ~1+ age + I(age^2),
           mixture = ~1 + age + I(age^2),
            random = ~1 + age,
            ng = 5, nwg = F, 
            idiag = FALSE, 
            data = data.frame(bmi_long\[1:200,\]),
           subject = "id")
#> Be patient, hlme is running ... 
#> The program took 0.77 seconds
model_e$BIC

 

  • F 型 (R, lcmm)
fixed = bmi ~1+ age + I(age^2),
           mixture = ~1 + age + I(age^2)
mod$BIC

 

  • G(SAS、PROC TRAJ)

第四步

执行一些模型充分性评估。首先,对于每个参与者,计算被调配到每个轨迹类的后验概率,并将个体调配到概率最高的类。在所有类别中,这些最大后验调配概率 (APPA) 的平均值高于 70% 被认为是能够承受的。应用正确分类、不匹配的几率进一步评估模型的充分性。

LCTMdel_f

第 5 步

图形示意办法;

  1. 绘制蕴含每个类的工夫均匀轨迹
  2. 每个类具备 95% 预测区间的均匀轨迹图,显示每个类内预测的随机变动
plotpred <- predictY
plototp

  1. 集体程度的“面条图”随工夫变动,取决于样本量,可能应用参与者的随机样本
ggplot(bm, aes(x = age, y = bmi)) + geom_line

ggplot(bmong) + geom_line

第 6 步

评估模型分别。

第 7 步

应用四种办法评估临床特色和合理性;

1. 评估轨迹模式的临床意义,旨在包含至多 1% 的人群的类别

postprb(modf)

2. 评估轨迹类别的临床合理性

应用 _6.2_中生成的图 来评估预测的趋势对于正在钻研的组是否事实。例如,对于钻研 BMI,显示降落到 <5 kg/m2 的预测趋势是不事实的。
 

3. 潜在类别与传统分类的特色列表

应用从所选模型中提取类调配;

而后用描述性变量反馈到主数据集中。

而后能够依据须要将这些制成表格。

等等。

4. 应用 kappa 统计的类成员与传统 BMI 类别成员的一致性

# 定义 BMI 类别,这些类别的数量须要与类别的数量相等 
confusionMatrix(bmi_class, bmclass
kable(y, row.names =)

第 8 步

酌情进行敏感性剖析。


 

最受欢迎的见解

1.R 语言多元 Logistic 逻辑回归 利用案例

2. 面板平滑转移回归 (PSTR) 剖析案例实现剖析案例实现 ”)

3.matlab 中的偏最小二乘回归(PLSR)和主成分回归(PCR)

4.R 语言泊松 Poisson 回归模型剖析案例

5.R 语言混合效应逻辑回归 Logistic 模型剖析肺癌

6.r 语言中对 LASSO 回归,Ridge 岭回归和 Elastic Net 模型实现

7.R 语言逻辑回归、Naive Bayes 贝叶斯、决策树、随机森林算法预测心脏病

8.python 用线性回归预测股票价格

9.R 语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测

正文完
 0