共计 1118 个字符,预计需要花费 3 分钟才能阅读完成。
原文链接:
http://tecdat.cn/?p=25158
本文拟合具备分组惩办的线性回归、GLM 和 Cox 回归模型的正则化门路。这包含组抉择办法,如组 lasso 套索、组 MCP 和组 SCAD,以及双级抉择办法,如组指数 lasso、组 MCP。还提供了进行穿插验证以及拟合后可视化、总结和预测的实用程序。
本文提供了一些数据集的例子;波及辨认与低出世体重无关的危险因素。后果是间断测量(bwt,以公斤为单位的出世体重),也能够是二分法(低),即新生儿出世体重低(低于 2.5 公斤)。
head(X)
原始设计矩阵由 8 个变量组成,此处已将其扩大为 16 个特色。例如,有多个种族指标函数(“其余”是参考组),并且曾经应用多项式比照扩大了几个间断因素(例如年龄)(样条曲线会给出相似的构造)。因而,设计矩阵的列被 _分组_;这就是_组_的设计目标。分组信息编码如下:
group
在这里,组是作为一个因子给出的;惟一的整数代码(实质上是无标签的因子)和字符向量也是容许的(然而,字符向量的确有一些限度,因为组的程序没有被指定)。要对这个数据拟合一个组套索 lasso 模型。
gLas(X, y,grup)
而后咱们能够用以下办法绘制系数门路
plot
请留神,当一个组进入模型时(例如,绿色组),它的所有系数都变成非零;这就是组套索模型的状况。要想晓得这些系数是什么,咱们能够应用 coef。
请留神,在 λ =0.05 时,医生的就诊次数不包含在模型中。
为了推断模型在各种 λ 值下的预测准确性,进行穿插验证。
cv(X, y, grp)
能够通过 coef
以下形式取得与最小化穿插验证误差的 λ 值对应的系数:
coef(cvfit)
预测值能够通过 取得 predict
,它有许多选项:
predict # 对新察看后果的预测
predicttype="ngroups" # 非零组的数量
# 非零组的身份
nvars # 非零系数的数量
predict(fit # 非零系数的身份
原始拟合(对残缺数据集)返回为fit
; 其余几种惩办是可用的,逻辑回归和 Cox 比例危险回归的办法也是如此。
最受欢迎的见解
1.R 语言多元 Logistic 逻辑回归 利用案例
2. 面板平滑转移回归 (PSTR) 剖析案例实现剖析案例实现 ”)
3.matlab 中的偏最小二乘回归(PLSR)和主成分回归(PCR)
4.R 语言泊松 Poisson 回归模型剖析案例
5.R 语言回归中的 Hosmer-Lemeshow 拟合优度测验
6.r 语言中对 LASSO 回归,Ridge 岭回归和 Elastic Net 模型实现
7. 在 R 语言中实现 Logistic 逻辑回归
8.python 用线性回归预测股票价格
9.R 语言如何在生存剖析与 Cox 回归中计算 IDI,NRI 指标