关于算法:拓端tecdatR语言混合线性模型多层次模型回归模型分析学生平均成绩GPA和可视化

2次阅读

共计 5429 个字符,预计需要花费 14 分钟才能阅读完成。

原文链接:http://tecdat.cn/?p=23159 

原文出处:拓端数据部落公众号

混合模型在统计学畛域曾经存在了很长时间。例如,规范的方差分析办法能够被看作是混合模型的非凡状况。最近,混合模型有多种利用和扩大,使其可能涵盖各种不同的数据状况。

术语

对于不相熟的人来说,围绕混合模型的术语,特地是跨学科的术语,可能有点令人困惑。你可能遇到的对于这些类型的模型的一些术语包含。

  • 方差重量
  • 随机截距和斜率
  • 随机效应
  • 随机系数
  • 变动的系数
  • 截距和 / 或斜率作为后果
  • 分层线性模型
  • 多层次模型(意味着多层次的分层聚类数据
  • 增长曲线模型(可能是 Latent GCM)。
  • 混合效应模型

都形容了混合模型的类型。混合效应,或简称混合,模型个别指固定效应和随机效应的混合。对于个别的模型,我更喜爱用 “ 混合模型 “ 或 “ 随机效应模型 ”,因为它们是更简略的术语,没有暗示具体的构造,而且后者还能够实用于许多人在应用其余术语时不会想到的扩大状况。对于混合效应,固定效应指的是人们在线性回归模型中看到的典型主效应,即混合模型的非随机局部,在某些状况下,它们被称为总体均匀效应。无论如何定义,随机效应只是那些特定于察看样本的效应。本文所概述的办法次要波及察看样本是某种分组因素程度的状况。

聚类的品种

数据可能有一个或多个聚类起源,而且聚类可能是分层的,比方聚类是嵌套在其余聚类中。一个例子是对学生进行屡次的学术能力测试(反复察看嵌套在学生中,学生嵌套在学校中,学校嵌套在地区中)。在其余状况下,不存在嵌套构造。一个例子是反应时间试验,参与者执行同一组工作。尽管察看后果是在集体外部嵌套的,但察看后果也是依据工作类型进行聚类的。有人用嵌套和穿插这两个术语来辨别这些状况。此外,聚类可能是均衡的或不均衡的。

在上面的内容中,咱们将看到所有这些数据状况下的混合效应模型。一般来说,咱们的办法将是雷同的,因为这种聚类实际上更多的是数据的属性而不是模型的属性。然而,理解混合模型在解决各种数据状况时的灵活性是很重要的。

随机截距模型

上面咱们展现混合模型的最简略和最常见的状况,即咱们有一个繁多的分组 / 群组构造的随机效应。这通常被称为随机截距模型。

例子:学生大学均匀问题 GPA

上面咱们将评估预测大学均匀问题(GPA)的因素。200 名学生中的每个人都被评估了六次(前三年的每个学期),因而咱们在学生中进行了察看分组。咱们还有其余变量,如状态、性别和高中 GPA。有些会以标签和数字的模式呈现。

规范回归模型

当初说说根底模型。咱们能够用几种不同的形式来展现它。首先,咱们从一个规范回归开始,来确定咱们的方向。

咱们对截距和工夫的影响有系数(b)。误差(ϵ)被假设为正态分布,平均值为 0,标准差为 σ。

另一种写法是强调 gpa 的根本数据生成过程的模型,如下。

更严格地说,GPA 和 μ 变量有一个隐含的下标来示意每个察看值,但你也能够把它看成是单个个体在单个工夫点的模型。

混合模型

形容

当初咱们展现一种形容混合模型的办法,其中包含每个学生的独特效应。考虑一下上面这个繁多学生的模型。这表明,学生的特定效应,即 GPA 的偏差只是因为该学生是谁,能够被看作是一个额定的方差起源。

 

咱们(通常)会对学生效应做如下假如。

因而,学生效应是随机的,具体来说是正态分布,均值为零,有肯定的预计标准差(τ)。换句话说,从概念上讲,这个混合模型和规范回归之间的惟一区别是学生效应,均匀而言,学生效应是没有影响的,但通常会因学生的不同而有肯定的变动,均匀而言是 τ。

如果咱们重新排列,咱们反而能够关注模型的系数,而不是作为额定的误差起源。

或者更简洁的说

这样一来,咱们就会有针对学生的截距,因为每个人都会有本人独特的影响加到总体截距上,导致每个人的截距不同。

当初咱们看到截距是正态分布的,有总体截距的平均值和一些标准差。因而,这通常被称为随机截距模型。

多层次模型

另一种显示混合模型的形式常见于多层次模型的文献中。它被更明确地显示为一个两局部的回归模型,一个在样本层面,一个在学生层面。

然而,在将第二档次的局部 “ 插入 “ 第一档次后,它与前者是雷同的。

请留神,咱们并没有一个针对学生情景的效应。在这种状况下,情景被说成是一个固定效应,而没有随机成分。但状况相对不是这样的,咱们前面会看到。

利用

可视化

在这里,咱们绘制 GPA 与情景(即学期)的关系,来理解终点和趋势的变动。

plot(occasion, gpa,smooth(method = 'lm')

 

所有学生的门路都以浅色门路显示,10 个样本以粗体显示。咱们稍后要做的回归所预计的总体趋势显示为红色。有两件事很突出。一是学生在开始时有很大的变数。第二,尽管 GPA 的总体趋势是随着工夫的推移而回升但个别学生在这个轨迹上可能会有所不同。

规范回归

因而,让咱们开始吧。首先,咱们来看看回归,只把工夫指标作为协变量,咱们把它当作数字。

lm(gpa ~ occasion)
## summary(lm)

 

下面的数据通知咱们,开始时,即学期为零时,均匀 GPA,用截距示意,是 2.6。此外,随着咱们从一个学期到另一个学期,咱们能够预期 GPA 会减少大概 0.11 分。这将是很好的,除了咱们疏忽了聚类。这样做的一个副作用是,咱们的标准误差是有偏差的,因而基于标准误差的统计学意义的主张会有偏差。更重要的是,咱们无奈摸索学生效应,但学生效应很有意义。

分组回归

另一种办法是对每个学生独自进行回归。然而,这种办法有很多毛病 – 当有很多组的时候,它不容易被总结,通常每个组内的数据很少,无奈做到这一点(如在这个案例中),而且模型是适度的背景化,意味着他们疏忽了学生的共同点。咱们将在前面比拟这样的办法和混合模型。

运行混合模型

接下来咱们运行一个混合模型,它将容许学生的特定效应。在下文中,代码看起来就像你用 lm 做的回归一样,但有一个额定的局部来指定组,即学生的效应。(1|student)意味着咱们容许截距(用 1 示意)因学生而异。应用混合模型,咱们能够失去与回归雷同的后果,但将有更多的内容能够探讨。

library(lme4)
gpa_mixed = lmer(gpa ~ occasion + (1 | student), data = gpa)
## summary(gpa_mixed)

 

首先咱们看到,截距和工夫的系数,即在这里能够称为固定效应,与咱们在规范回归中看到的雷同,其解释也雷同。另一方面,这里的标准误差是不同的,只管最初咱们的论断在统计意义上是雷同的。请特地留神,截距的标准误差曾经减少。从概念上讲,你能够认为容许每个人的随机截距容许咱们取得对于集体的信息,同时意识到对于总体平均数的不确定性。

尽管咱们有系数和标准误差,但你可能曾经留神到,lme4 并没有提供 p 值,这有几个起因。这有几个起因,即对于混合模型,咱们基本上是在解决不同的样本量,群组内的 Nc,可能因群组而异(甚至是单个观测值),以及 N 个总观测值,这使咱们在参考散布、自由度以及如何近似 “ 最佳 “ 解决方案方面处于一种含糊的状态。其余程序主动提供 p 值,如同没有什么问题,而且没有通知你他们应用哪种办法来计算 p 值(有几种)。此外,这些近似值在某些状况下可能十分差,或者做出可能不适宜状况的假如。

然而,失去置信区间是比拟间接的,如下所示 7。

confint(gpa)

 

方差成分

与规范回归输入相比,有一点是新的,那就是学生效应的预计方差 / 标准差(在咱们之前的公式形容中是 ττ)。这通知咱们,均匀而言,当咱们从一个学生转移到另一个学生时,GPA 会有多大的变动。换句话说,即便在依据工夫点进行预测后,每个学生都有本人独特的偏差,而这个值(就标准偏差而言)是整个学生的预计平均偏差。

另一种解释方差输入的办法是留神学生方差在总数中的百分比,或 0.064 / 0.122 = 52%。这也被称为类内相干,因为它也是对群内相干的预计,咱们将在前面看到。

随机效应的预计

运行模型后,咱们实际上能够失去学生效应的估计值。我为前五个学生展现了两种办法,既能够作为随机效应,也能够作为随机截距(即截距 + 随机效应)。

ef(mixed)$student %>% head(5)

 

coef

 

请留神,咱们不容许学期的变动,所以它对所有的学生都是一个恒定的,也就是固定的成果。

通常状况下,咱们对这些效应十分感兴趣,并心愿对它们有一些不确定性的感觉。能够通过预测区间来实现。或者能够间接去看它们的图。

Interval(mixed)   # 用于各种模型的预测,可能应用新的数据
sim(mixed)             #  随机效应估计值的平均值、中位数和 SD 值

plot(mixed))  # 绘制区间估计值

上面的图是每个学生的预计随机效应及其区间预计。随机效应是正态分布,其平均值为零,由水平线示意。不包含零的区间用粗体示意。

预测

当初让咱们来看看规范预测与特定群组预测的比照。与大多数 R 模型一样,咱们能够在模型上应用预测函数。

predict(mixed, re.form=NA) %>% head()

在下面的代码中,咱们指定不应用随机效应 re.form=NA,因而,咱们对观测值的预测和咱们从规范线性模型中失去的预测差不多。

predict(mixed, re.form=NA)
predict(lm)

然而每个人都有本人独特的截距,所以让咱们看看当咱们退出这些信息时,预测后果有什么不同。

predict(mixed)

 

依据预计的学生效应,学生开始于高或低于所有学生的预计截距。上面是无条件预测与蕴含了前两个学生的随机截距的条件预测的直观比照。

plot(x = occasion,y = gpa, color = student,prediction, group = student,y = prediction)

咱们能够看到,因为截距不同,混合模型的预测后果产生了偏移。对于这些学生来说,这种转变反映了他们绝对较差的终点。

聚类层面的协变量

请留神咱们把混合模型形容为一个多层次模型。

 

如果咱们在模型中退出学生层面的协变量,例如性别,咱们就会有以下后果。

其中,在插入后,咱们依然有与之前雷同的模型,只是减少了一个预测因素。

因而,减少群组级协变量对咱们思考模型的形式没有任何不寻常的影响。咱们只是把它们增加到咱们的预测变量汇合中。还要留神的是,咱们能够将聚类层面的协变量创立为平均值或其余一些察看层面变量的总结。当聚类代表天文单位,而察看对象是人时,这一点尤其常见。例如,咱们能够将支出作为集体层面的协变量,并应用中位数来代表天文区域的整体财产。

混合模型基础知识总结

混合模型使咱们可能思考到数据中的聚类。咱们更好地了解了指标变量的变异性起源。咱们还失去了模型中参数的具体组别预计,使咱们可能精确地理解各组之间的差别。此外,这反过来又容许咱们进行特定群体的预测,从而进行更精确的预测,假如因为聚类而存在显著的变异。简而言之,即便在最简略的状况下,混合模型也有很多益处。

练习

睡眠

在这个练习中,咱们将应用 lme4 软件包中的睡眠钻研数据。以下是对它的形容。

睡眠限度钻研中的受试者每天的均匀反应时间。在第 0 天,受试者有失常的睡眠量。从那天早晨开始,他们被限度在每晚 3 小时的睡眠工夫。察看后果代表了每天给每个受试者的一系列测试的均匀反应时间(以毫秒计)。

在加载软件包后,能够按以下形式加载数据。我展现了最后的几个察看后果。

  1. 运行一个以因变量为指标变量,以天为预测变量的回归。
  2. 运行一个混合模型,用随机截距示意 Subject。
  3. 解释方差重量和固定效应。

增加聚类级协变量

用 GPA 数据从新运行混合模型,增加聚类级协变量性别或高中 GPA(highgpa),或两者。解释后果的所有方面。

在模型中退出聚类层面的协变量后,学生的方差产生了什么变动?

模仿混合模型

上面代表了一种模仿随机截距模型的简略办法。

set.seed(1234)  # 复制你的后果

N = Ngroups * NperGroup

y = 2 + .5 * x + u\[groups\] + e

以上哪些代表了固定效应和随机效应?当初运行混合模型。

后果与你所冀望的统一吗?

在上面的内容中,咱们将扭转数据的各个方面,而后在每次扭转后从新运行模型,而后像以前一样进行总结并失去置信区间。对于每一项,都要特地留神后果中至多有一点变动。

 首先计算类内相关系数。
.

此外,创立随机效应的密度图。

  1. 扭转随机效应方差 /SD 和 / 或残差 /SD,留神你对 ICC 的新预计,并像以前一样绘制随机效应。
  2. 将数值重置为原始值。将 Ngroups 改为 50。你在置信区间预计中看到了什么不同?
  3. 将 Ngroups 从新设置为 100。当初将 NperGroup 改为 10,并再次留神到置信区间与根本条件有什么不同。

最受欢迎的见解

1. 基于 R 语言的 lmer 混合线性回归模型

2.R 语言用 Rshiny 摸索 lme4 狭义线性混合模型(GLMM)和线性混合模型(LMM)

3.R 语言线性混合效应模型实战案例

4.R 语言线性混合效应模型实战案例 2

5.R 语言线性混合效应模型实战案例

6. 线性混合效应模型 Linear Mixed-Effects Models 的局部折叠 Gibbs 采样

7.R 语言 LME4 混合效应模型钻研老师的受欢迎水平

8.R 语言中基于混合数据抽样 (MIDAS) 回归的 HAR-RV 模型预测 GDP 增长

9. 应用 SAS,Stata,HLM,R,SPSS 和 Mplus 的分层线性模型 HLM

正文完
 0