关于数据挖掘:R语言群组变量选择组惩罚group-lasso套索模型预测分析新生儿出生体重风险因素数据和交叉验证可视化

9次阅读

共计 1118 个字符,预计需要花费 3 分钟才能阅读完成。

原文链接:

http://tecdat.cn/?p=25158

 本文拟合具备分组惩办的线性回归、GLM 和 Cox 回归模型的正则化门路。这包含组抉择办法,如组 lasso 套索、组 MCP 和组 SCAD,以及双级抉择办法,如组指数 lasso、组 MCP。还提供了进行穿插验证以及拟合后可视化、总结和预测的实用程序。

本文提供了一些数据集的例子;波及辨认与低出世体重无关的危险因素。后果是间断测量(bwt,以公斤为单位的出世体重),也能够是二分法(低),即新生儿出世体重低(低于 2.5 公斤)。

head(X)

原始设计矩阵由 8 个变量组成,此处已将其扩大为 16 个特色。例如,有多个种族指标函数(“其余”是参考组),并且曾经应用多项式比照扩大了几个间断因素(例如年龄)(样条曲线会给出相似的构造)。因而,设计矩阵的列被 _分组_;这就是_组_的设计目标。分组信息编码如下:

group

在这里,组是作为一个因子给出的;惟一的整数代码(实质上是无标签的因子)和字符向量也是容许的(然而,字符向量的确有一些限度,因为组的程序没有被指定)。要对这个数据拟合一个组套索 lasso 模型。

gLas(X, y,grup)

而后咱们能够用以下办法绘制系数门路 

plot

请留神,当一个组进入模型时(例如,绿色组),它的所有系数都变成非零;这就是组套索模型的状况。要想晓得这些系数是什么,咱们能够应用 coef。

请留神,在 λ =0.05 时,医生的就诊次数不包含在模型中。

为了推断模型在各种 λ 值下的预测准确性,进行穿插验证。

cv(X, y, grp)

能够通过 coef 以下形式取得与最小化穿插验证误差的 λ 值对应的系数:

coef(cvfit)

预测值能够通过 取得 predict,它有许多选项:

predict # 对新察看后果的预测

predicttype="ngroups" # 非零组的数量

 # 非零组的身份

nvars # 非零系数的数量

predict(fit # 非零系数的身份

原始拟合(对残缺数据集)返回为fit; 其余几种惩办是可用的,逻辑回归和 Cox 比例危险回归的办法也是如此。


最受欢迎的见解

1.R 语言多元 Logistic 逻辑回归 利用案例

2. 面板平滑转移回归 (PSTR) 剖析案例实现剖析案例实现 ”)

3.matlab 中的偏最小二乘回归(PLSR)和主成分回归(PCR)

4.R 语言泊松 Poisson 回归模型剖析案例

5.R 语言回归中的 Hosmer-Lemeshow 拟合优度测验

6.r 语言中对 LASSO 回归,Ridge 岭回归和 Elastic Net 模型实现

7. 在 R 语言中实现 Logistic 逻辑回归

8.python 用线性回归预测股票价格

9.R 语言如何在生存剖析与 Cox 回归中计算 IDI,NRI 指标

正文完
 0