原文链接:http://tecdat.cn/?p=2640
能够应用逐步回归过程确定多元逻辑回归。此函数抉择模型以最小化 AIC。
如何进行多元逻辑回归
能够应用 step 函数通过逐步回归过程确定多元逻辑回归。此函数抉择模型以最小化 AIC。
通常倡议不要自觉地遵循逐步回归程序,而是要应用拟合统计(AIC,AICc,BIC)比拟模型,或者依据生物学或迷信上正当的可用变量建设模型。
多元相干是钻研潜在自变量之间关系的一种工具。例如,如果两个独立变量彼此相干,可能在最终模型中都不须要这两个变量,但可能有理由抉择一个变量而不是另一个变量。
多元相干
创立数值变量的数据框
Data.num $ Status = as.numeric(Data.num $ Status)Data.num $ Length = as.numeric(Data.num $ Length)Data.num $ Migr = as.numeric(Data.num $ Migr)Data.num $ Insect = as.numeric(Data.num $ Insect)Data.num $ Diet = as.numeric(Data.num $ Diet)Data.num $ Broods = as.numeric(Data.num $ Broods)Data。num $ Wood = as.numeric(Data.num $ Wood)Data.num $ Upland = as.numeric(Data.num $ Upland)Data.num $ Water = as.numeric(Data.num $ Water)Data.num $ Release = as.numeric(Data.num $ Release)Data.num $ Indiv = as.numeric(Data.num $ Indiv)### 查看新数据框
headtail(Data.num)1 1 1520 9600.0 1.21 1 12 2 6.0 1 0 0 1 6 29
2 1 1250 5000.0 0.56 1 0 1 6.0 1 0 0 1 10 85
3 1 870 3360.0 0.07 1 0 1 4.0 1 0 0 1 3 8
77 0 170 31.0 0.55 3 12 2 4.0 NA 1 0 0 1 2
78 0 210 36.9 2.00 2 8 2 3.7 1 0 0 1 1 2
79 0 225 106.5 1.20 2 12 2 4.8 2 0 0 0 1 2
### 查看变量之间的相关性
### 这里应用了 Spearman 相关性
多元逻辑回归的例子
在此示例中,数据蕴含缺失值。在 R 中缺失值用 NA 示意。SAS 通常会无缝地解决缺失值。尽管这使用户更容易,但可能无奈确保用户理解这些缺失值的作用。在某些状况下,R 要求用户明确如何解决缺失值。解决多元回归中的缺失值的一种办法是从数据集中删除具备任何缺失值的所有察看值。这是咱们在逐步回归过程之前要做的事件,创立一个名为 Data.omit 的数据框。然而,当咱们创立最终模型时,咱们只想排除那些在最终模型中理论蕴含的变量中具备缺失值的察看样本。为了测试最终模型的整体 p 值,绘制最终模型,或应用 glm.compare 函数,咱们将创立一个名为 Data.final 的数据框,只排除那些察看后果。
只管二项式和 poission 散布中的模型应该没问题,然而对于应用某些 glm 拟合的步骤过程存在一些注意事项。
用逐步回归确定模型
最终模型
summary(model.final)
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -3.5496482 2.0827400 -1.704 0.088322 .
Upland -4.5484289 2.0712502 -2.196 0.028093 *
Migr -1.8184049 0.8325702 -2.184 0.028956 *
Mass 0.0019029 0.0007048 2.700 0.006940 **
Indiv 0.0137061 0.0038703 3.541 0.000398 ***
Insect 0.2394720 0.1373456 1.744 0.081234 .
Wood 1.8134445 1.3105911 1.384 0.166455
伪 R 方
$Pseudo.R.squared.for.model.vs.null
Pseudo.R.squared
McFadden 0.700475
Cox and Snell (ML) 0.637732
Nagelkerke (Cragg and Uhler) 0.833284
模型总体 p 值
在最终模型中创立蕴含变量的数据框,并省略 NA。
偏差表剖析
=
Analysis of Deviance Table
Model 1: Status ~ Upland + Migr + Mass + Indiv + Insect + Wood
Model 2: Status ~ 1
Resid. Df Resid. Dev Df Deviance Pr(>Chi)
1 63 30.392
2 69 93.351 -6 -62.959 1.125e-11 ***
似然比测验
=
Likelihood ratio test
#Df LogLik Df Chisq Pr(>Chisq)
1 7 -15.196
2 1 -46.675 -6 62.959 1.125e-11 ***
标准化残差图
简略的预测值图
在最终模型中创立蕴含变量的数据框,并在 NA 中省略
适度离散测验
适度离散是 glm 的_deviance 残差_绝对于自由度较大的状况。这些值显示在模型的摘要中。一个领导准则是,如果_deviance 残差_与残余自由度的比率超过 1.5,则模型适度离散。适度离散表明模型不能很好地拟合数据:解释变量可能无奈很好地形容因变量,或者可能无奈为这些数据正确指定模型。如果存在适度离散,一种可能的解决方案是 在 glm 中应用 quasibinomial family 选项。
Null deviance: 93.351 on 69 degrees of freedom
Residual deviance: 30.392 on 63 degrees of freedom
deviance / df.residual
[1] 0.482417
=
评估模型的代替办法
应用逐步回归程序的代替或补充是将模型与拟合统计进行比拟。我的 compare.glm 函数将为 glm 模型显示 AIC,AICc,BIC 和伪 R 平方。应用的模型应该都拟合雷同的数据。也就是说,如果数据集中的不同变量蕴含缺失值,则应该审慎应用。如果您对应用哪种拟合统计数据没有任何偏好,您心愿在最终模型中应用较少的项,我可能会举荐 AICc 或 BIC。
一系列模型能够与规范的 anova 进行比拟。模型应嵌套在先前模型中或 anova 函数列表中的下一个模型中; 和模型应该拟合雷同的数据。在比拟多个回归模型时,通常放宽 p 值为 0.10 或 0.15。
在以下示例中,应用通过逐步回归过程抉择的模型。请留神,尽管模型 9 最小化了 AIC 和 AICc,但模型 8 最小化了 BIC。anova 结果表明模型 8 不是对模型 7 的显着改良。这些后果反对抉择模型 7,8 或 9 中的任何一个。
compareGLM(model.1, model.2, model.3, model.4, model.5, model.6,
model.7, model.8, model.9)
$Models
Formula
1 "Status ~ 1"
2 "Status ~ Release"
3 "Status ~ Release + Upland"
4 "Status ~ Release + Upland + Migr"
5 "Status ~ Release + Upland + Migr + Mass"
6 "Status ~ Release + Upland + Migr + Mass + Indiv"
7 "Status ~ Release + Upland + Migr + Mass + Indiv + Insect"
8 "Status ~ Upland + Migr + Mass + Indiv + Insect"
9 "Status ~ Upland + Migr + Mass + Indiv + Insect + Wood"
$Fit.criteria
Rank Df.res AIC AICc BIC McFadden Cox.and.Snell Nagelkerke p.value
1 1 66 94.34 94.53 98.75 0.0000 0.0000 0.0000 Inf
2 2 65 62.13 62.51 68.74 0.3787 0.3999 0.5401 2.538e-09
3 3 64 56.02 56.67 64.84 0.4684 0.4683 0.6325 3.232e-10
4 4 63 51.63 52.61 62.65 0.5392 0.5167 0.6979 7.363e-11
5 5 62 50.64 52.04 63.87 0.5723 0.5377 0.7263 7.672e-11
6 6 61 49.07 50.97 64.50 0.6118 0.5618 0.7588 5.434e-11
7 7 60 46.42 48.90 64.05 0.6633 0.5912 0.7985 2.177e-11
8 6 61 44.71 46.61 60.14 0.6601 0.5894 0.7961 6.885e-12
9 7 60 44.03 46.51 61.67 0.6897 0.6055 0.8178 7.148e-12
Analysis of Deviance Table
Model 1: Status ~ 1
Model 2: Status ~ Release
Model 3: Status ~ Release + Upland
Model 4: Status ~ Release + Upland + Migr
Model 5: Status ~ Release + Upland + Migr + Mass
Model 6: Status ~ Release + Upland + Migr + Mass + Indiv
Model 7: Status ~ Release + Upland + Migr + Mass + Indiv + Insect
Model 8: Status ~ Upland + Migr + Mass + Indiv + Insect
Model 9: Status ~ Upland + Migr + Mass + Indiv + Insect + Wood
Resid. Df Resid. Dev Df Deviance Pr(>Chi)
1 66 90.343
2 65 56.130 1 34.213 4.94e-09 ***
3 64 48.024 1 8.106 0.004412 **
4 63 41.631 1 6.393 0.011458 *
5 62 38.643 1 2.988 0.083872 .
6 61 35.070 1 3.573 0.058721 .
7 60 30.415 1 4.655 0.030970 *
8 61 30.710 -1 -0.295 0.587066
9 60 28.031 1 2.679 0.101686
最受欢迎的见解
1.matlab 中的偏最小二乘回归(PLSR)和主成分回归(PCR)
2.R 语言多元 Logistic 逻辑回归 利用案例
3.R 语言面板平滑转移回归 (PSTR) 剖析案例实现
4.R 语言回归中的 Hosmer-Lemeshow 拟合优度测验
5.R 语言泊松 Poisson 回归模型剖析案例
6.r 语言中对 LASSO 回归,Ridge 岭回归和 Elastic Net 模型实现
7.R 语言如何在生存剖析与 Cox 回归中计算 IDI,NRI 指标
8. 在 R 语言中实现 Logistic 逻辑回归
9.R 语言实现向量自回归 VAR 模型