乐趣区

关于数据挖掘:R语言生态学模拟对广义线性混合模型GLMM进行功率功效效能效力分析power-analysis环境监测数据

原文链接:http://tecdat.cn/?p=24861 

概括

  1. r 语言容许用户计算 lme 4 包中狭义线性混合模型的效用。功率计算基于蒙特卡罗模仿。
  2. 它包含用于 (i) 对给定模型和设计进行效用剖析的工具;(ii) 计算效用曲线以评估效用和样本量之间的衡量。
  3. 本文提供了一个教程,应用具备混合成果的计数数据的简略示例(具备代表环境监测数据的构造)。

介绍

假设检验的效用定义为假如原假如为假,测验回绝原假如的概率。换句话说,如果一个效应是实在的,那么分析判断该效应具备统计显着性的概率是多少?

如果一项钻研的力量有余,资源可能被节约,真正的成果可能被脱漏。另一方面,一项大型钻研的破费可能过大,因而其费用也会超过必要的范畴。因而,在收集数据之前进行效用剖析是一个很好的做法,以确保样本具备适当的规模来答复正在思考的任何钻研问题。

狭义线性混合模型 (GLMM) 在生态学中很重要,它容许剖析计数和比例以及间断数据,并管制空间非独立性.

蒙特卡罗模仿是一种灵便且精确的办法,实用于事实的生态钻研设计。在某些状况下,咱们能够应用解析公式来计算效用,但这些通常是近似值或须要非凡模式的设计。仿真是一种实用于各种模型和办法的繁多办法。即便公式可用于特定模型和设计,定位和利用适当的公式也可能十分艰难,因而首选仿真。

对于对 r 不够相熟的钻研人员,设置模拟实验可能太简单了。在本文中,咱们介绍了一个工具来自动化这个过程。

r 包

有一系列的 r 包目前可用于混合模型的效用剖析。然而,没有一个能够同时解决非正态因变量和宽泛的固定和随机效应标准。

图 1

r 旨在与任何能够与 lme 4 中的 lmer 或 glmer 配合的线性混合模型 (LMM) 或 GLMM 一起应用。这容许具备不同固定和随机效应标准的各种模型。还反对在 r 中应用 lm 和 glm 的线性模型和狭义线性模型,以容许没有随机效应的模型。

r 中的效用剖析从适宜 lme 4 的模型开始。

在 r 中,通过反复以下三个步骤来计算效用:(i) 应用提供的模型模拟因变量的新值;(ii) 将模型从新拟合为模仿因变量;(iii) 对模仿拟合利用统计测验。在此设置中,已知存在测试成果,因而每个阳性测试都是真正的阳性,每个阴性测试都是 II 类谬误。能够依据步骤 3 的胜利和失败次数计算测试的效用。

教程

本教程应用蕴含的数据集。该数据集代表环境监测数据,在间断固定效应变量_x _(例如钻研年份)的 10 个程度上测量三个组 _g _(例如钻研地点)的因变量 _z _(例如鸟类丰度)。还有一个间断因变量 _y _,在本教程中没有应用。

拟合模型

咱们首先将 lme 4 中的一个非常简单的泊松混合效应模型拟合到数据集。在这种状况下,咱们有一个随机截距模型,其中每个组 ( ) 都有本人的截距,但这些组共享一个独特的趋势。

glm
summary

本教程重点介绍对于_x _趋势的推断。在这种状况下,_x _的预计效应大小为 -0·11,应用默认_z_测验在 0·01 程度上显着。

请留神,咱们特意应用了一个非常简单的模型来使本文易于了解。例如,适当的剖析会蕴含更多的组,并会思考适度扩散等问题。。

简略的功率剖析

假如咱们想反复这项钻研。如果成果是实在的,咱们是否有足够的力量来期待踊跃的后果?

指定效应量

在开始效用剖析之前,重要的是要思考您感兴趣的成果大小类型。效用通常随成果大小而减少,较大的成果更容易检测。回顾性“察看效用”计算,其中指标效应大小来自数据,给出误导性后果.

对于此示例,咱们将思考检测 -0·05 斜率的效用。能够应用 lme 4 函数拟合 glmer 模型中的固定效应。而后能够更改固定效应的大小。变量_x _的固定效应的大小 能够从 -0·11 更改为 -0·05,如下所示:

fixe<‐ ‐0.05

在本教程中,咱们只更改变量_x _的固定斜率。然而,咱们也能够更改随机效应参数或残差方差(实用于适合的模型)。

运行效用剖析

一旦指定了模型和效应大小,在 r 中进行效用剖析就非常容易了。因为这些计算基于蒙特卡罗模仿,因而您的后果可能略有不同。如果你想得到和教程一样的后果,你能够应用 set.seed(123)。

power

鉴于此特定设置,回绝_x _中零趋势的零假如的 能力约为 33%。这简直总是被认为是不够的;传统上,80% 的功率被认为是足够的.

在实践中,z_测验可能不适宜这样一个小例子。参数疏导测试 可能是最终剖析的首选。然而,更快的 _z -test 更适宜学习应用该包以及在效用剖析期间进行初始探索性工作。

减少样本量

在第一个示例中,预计功率很低。小型试点钻研通常没有足够的效用来检测渺小的影响,但更大的钻研可能会。

试点钻研对_x 的 _10 个值进行了察看,例如代表钻研第 1 年到第 10 年。在此步骤中,咱们将计算将其减少到 20 年的影响。

modl2 <‐ extend
power(modl2)

沿参数指定要扩大的变量,n 指定要替换它的级别。扩大模型 2 当初将具备 从 1 到 20 的_x _值,与以前一样分为三组,总共 60 行(与模型 1 中的 30 行相比)。

通过观察_x 的 _20 个值,咱们将有足够的能力来检测大小为 -0·05 的效应。

各种样本量的效用剖析

当数据收集老本昂扬时,用户可能只想收集达到肯定统计能力所需的数据量。效用曲线 函数可用于摸索样本大小和效用之间的衡量。

确定所需的最小样本量

在后面的示例中,当对变量_x 的_20 个值进行察看时,咱们发现了十分高的 _效用 _。咱们是否缩小这个数字,同时放弃咱们的力量高于通常的 80% 阈值?

 poerCure

print
plot

请留神,咱们已将此后果保留到变量 pc2 以匹配模型 2 中的编号。因为模型 1 没有足够的功率,咱们没有通过 powerCurve 运行它。绘制的输入如图所示。咱们能够看到,检测_x _趋势的 能力随着采样大小的减少而减少。这里的后果基于将模型拟合到 10 个不同的主动抉择的子集。最小的子集仅应用前 3 年(即 9 个观测值),最大的子集应用所有 20 个假如钻研年份(即 60 行数据)。该分析表明,该钻研必须运行 16 年能力有≥80% 的效用来检测指定大小的影响。

图 2

检测大小为 -0·05 的固定效应的效用 (±95% CI),应用 powerCurve 函数在一系列样本大小上计算。变量_x _的不同值的数量 从 3 (  = 9) 到 20 (  = 60) 不等。

扭转组的数量和大小

减少察看到的_x _值的数量可能不可行。例如,如果 _x _是钻研年份,咱们可能不违心期待更长时间的后果。在这种状况下,减少钻研地点的数量或每个地点的测量数量可能是更好的抉择。这两项剖析从咱们的原始模型 1 开始,该模型已有 10 年的钻研工夫。

增加更多组

咱们能够像为_x _增加额定值一样 为_g _增加额定级别。例如,如果变量 _g _代表咱们的钻研站点,咱们能够将站点数量从 3 减少到 15。

extend(n=15)
plot(pc3)

与上一个示例的次要变动是咱们将变量_g _传递 给了沿参数。该剖析的输入如图 1 所示。要达到 80% 的功率,咱们至多须要 11 个站点。

图 3

检测大小为 -0·05 的固定效应的效用 (±95% CI),应用 powerCurve 在一系列样本大小上计算。因子_g _的级别数 从 3 (  = 30) 到 15 (  = 150) 不等。

减少组内的大小

咱们能够用内参数替换扩大和 powerCurve 的沿参数以减少组内的样本大小。每个组在_x _和 _g 的 _每个程度上只有一个察看值。咱们能够将其扩大到每个站点每年 5 次观测,如下所示:

extend(n=5)

plot(p4)

请留神 powerCurve 的 breaks 参数。为_x _和 _g 的 _每个组合提供一到五个察看后果。图表明每年每个站点 4 次观测会给咱们 80% 的效劳。

图 4

检测大小为 -0·05 的固定效应的效用 (±95% CI),应用 powerCurve 函数在一系列样本大小上计算。_x _和 _g 的 _每个组合的察看数 从 1 (  = 30) 到 5 (  = 150) 不等。


最受欢迎的见解

1.Matlab 马尔可夫链蒙特卡罗法(MCMC)预计随机稳定率(SV,Stochastic Volatility)模型

2. 基于 R 语言的疾病制图中自适应核密度估计的阈值抉择办法

3.WinBUGS 对多元随机稳定率模型:贝叶斯预计与模型比拟

4.R 语言回归中的 hosmer-lemeshow 拟合优度测验

5.matlab 实现 MCMC 的马尔可夫切换 ARMA – GARCH 模型预计

6.R 语言区间数据回归剖析

7.R 语言 WALD 测验 VS 似然比测验

8.python 用线性回归预测股票价格

9.R 语言如何在生存剖析与 Cox 回归中计算 IDI,NRI 指标

退出移动版