关于数据挖掘:群组变量选择组惩罚group-lasso套索模型预测新生儿出生体重风险因素数据和交叉验证可视化附代码数据

32次阅读

共计 2264 个字符,预计需要花费 6 分钟才能阅读完成。

原文链接:http://tecdat.cn/?p=25158

最近咱们被客户要求撰写对于 lasso 的钻研报告,包含一些图形和统计输入。

本文介绍具备分组惩办的线性回归、GLM 和 Cox 回归模型的正则化门路。这包含组抉择办法,如组 lasso 套索、组 MCP 和组 SCAD,以及双级抉择办法,如组指数 lasso、组 MCP

还提供了进行穿插验证以及拟合后可视化、总结和预测的实用程序。

本文提供了一些数据集的例子;波及辨认与低出世体重无关的危险因素 查看文末理解数据获取形式 。后果是间断测量(bwt,以公斤为单位的出世体重),也能够是二分法(低),即新生儿出世体重低(低于 2.5 公斤)。

head(X)

相干视频

**

拓端

,赞 9

原始设计矩阵由 8 个变量组成,此处已将其扩大为 16 个特色。例如,有多个种族指标函数(“其余”是参考组),并且曾经应用多项式比照扩大了几个间断因素(例如年龄)(样条曲线会给出相似的构造)。因而,设计矩阵的列被 _分组_;这就是_组_的设计目标。分组信息编码如下:

group

在这里,组是作为一个因子给出的;惟一的整数代码(实质上是无标签的因子)和字符向量也是容许的(然而,字符向量的确有一些限度,因为组的程序没有被指定)。要对这个数据拟合一个组套索 lasso 模型。

gLas(X, y,grup)

而后咱们能够用以下办法绘制系数门路

plot


点击题目查阅往期内容

R 语言实现贝叶斯分位数回归、lasso 和自适应 lasso 贝叶斯分位数回归剖析

左右滑动查看更多

01

02

03

04

请留神,当一个组进入模型时(例如,绿色组),它的所有系数都变成非零;这就是组套索模型的状况。要想晓得这些系数是什么,咱们能够应用 coef。

请留神,在 λ =0.05 时,医生的就诊次数不包含在模型中。

为了推断模型在各种 λ 值下的预测准确性,进行穿插验证。

cv(X, y, grp)

能够通过 coef 以下形式取得与最小化穿插验证误差的 λ 值对应的系数:

coef(cvfit)

预测值能够通过 取得 predict,它有许多选项:

predict # 对新察看后果的预测

predicttype="ngroups" # 非零组的数量

 # 非零组的身份

nvars # 非零系数的数量

predict(fit # 非零系数的身份

原始拟合(对残缺数据集)返回为fit; 其余几种惩办是可用的,逻辑回归和 Cox 比例危险回归的办法也是如此。


本文摘选 R 语言群组变量抉择、组惩办 group lasso 套索模型预测剖析新生儿出世体重危险因素数据和穿插验证、可视化 ,点击“ 浏览原文”获取全文残缺材料。


点击题目查阅往期内容

【视频】Lasso 回归、岭回归等正则化回归数学原理及 R 语言实例 R 语言 Lasso 回归模型变量抉择和糖尿病倒退预测模型
用 LASSO,adaptive LASSO 预测通货膨胀工夫序列 MATLAB 用 Lasso 回归拟合高维数据和穿插验证
群组变量抉择、组惩办 group lasso 套索模型预测新生儿出世体重危险因素数据和穿插验证、可视化
高维数据惩办回归办法:主成分回归 PCR、岭回归、lasso、弹性网络 elastic net 剖析基因数据
Python 高维变量抉择:SCAD 平滑剪切相对偏差惩办、Lasso 惩办函数比拟
R 应用 LASSO 回归预测股票收益
狭义线性模型 glm 泊松回归的 lasso、弹性网络分类预测学生考试成绩数据和穿插验证
贝叶斯分位数回归、lasso 和自适应 lasso 贝叶斯分位数回归剖析免疫球蛋白、前列腺癌数据
R 语言 RSTAN MCMC:NUTS 采样算法用 LASSO 构建贝叶斯线性回归模型剖析职业声望数据
r 语言中对 LASSO 回归,Ridge 岭回归和弹性网络 Elastic Net 模型实现
R 语言高维数据惩办回归办法:主成分回归 PCR、岭回归、lasso、弹性网络 elastic net 剖析基因数据(含练习题)
狭义线性模型 glm 泊松回归的 lasso、弹性网络分类预测学生考试成绩数据和穿插验证
贝叶斯分位数回归、lasso 和自适应 lasso 贝叶斯分位数回归剖析免疫球蛋白、前列腺癌数据
R 语言 RSTAN MCMC:NUTS 采样算法用 LASSO 构建贝叶斯线性回归模型剖析职业声望数据
r 语言中对 LASSO 回归,Ridge 岭回归和弹性网络 Elastic Net 模型实现
R 语言高维数据惩办回归办法:主成分回归 PCR、岭回归、lasso、弹性网络 elastic net 剖析基因数据(含练习题)
Python 中 LARS 和 Lasso 回归之最小角算法 Lars 剖析波士顿住房数据实例
R 语言自适应 LASSO 多项式回归、二元逻辑回归和岭回归利用剖析
R 语言惩办 logistic 逻辑回归(LASSO, 岭回归)高维变量抉择的分类模型案例
Python 中的 Lasso 回归之最小角算法 LARS
r 语言中对 LASSO 回归,Ridge 岭回归和弹性网络 Elastic Net 模型实现
R 语言实现 LASSO 回归——本人编写 LASSO 回归算法
r 语言中对 LASSO 回归,Ridge 岭回归和 Elastic Net 模型实现
R 应用 LASSO 回归预测股票收益
R 语言如何和何时应用 glmnet 岭回归
R 语言中的岭回归、套索回归、主成分回归:线性模型抉择和正则化
Python 中的 ARIMA 模型、SARIMA 模型和 SARIMAX 模型对工夫序列预测
R 语言 arima,向量自回归(VAR),周期自回归 (PAR) 模型剖析温度工夫序列
【视频】Python 和 R 语言应用指数加权均匀(EWMA),ARIMA 自回归挪动均匀模型预测工夫序列
Python 用 ARIMA 和 SARIMA 模型预测销量工夫序列数据

正文完
 0