乐趣区

关于数据挖掘:R语言Lasso回归模型变量选择和糖尿病发展预测模型附代码数据

全文链接:http://tecdat.cn/?p=22721

最近咱们被客户要求撰写对于 Lasso 回归模型的钻研报告,包含一些图形和统计输入。

Lease Absolute Shrinkage and Selection Operator(LASSO)在给定的模型上执行正则化和变量抉择

依据惩办项的大小,LASSO 将不太相干的预测因子放大到(可能)零。因而,它使咱们可能思考一个更扼要的模型。在这组练习中,咱们将在 R 中实现 LASSO 回归。

练习 1

加载糖尿病数据集。这有对于糖尿病的病人程度的数据。数据为 n = 442 名糖尿病患者中的每个人取得了 10 个基线变量、年龄、性别、体重指数、均匀血压和 6 个血清测量值,以及感兴趣的反馈,即一年后疾病停顿的定量测量。”

接下来,加载包用来实现 LASSO。

head(data)

向下滑动查看后果▼

练习 2

数据集有三个矩阵 x、x2 和 y。x 是较小的自变量集,而 x2 蕴含残缺的自变量集以及二次和交互项。\
查看每个预测因素与因变量的关系。生成独自的散点图,所有预测因子的最佳拟合线在 x 中,y 在纵轴上。用一个循环来主动实现这个过程。

summary(x)
for(i in 1:10){plot(x[,i], y)
  abline(lm(y~x[,i])
}

向下滑动查看后果▼


点击题目查阅往期内容

基于 R 语言实现 LASSO 回归剖析

左右滑动查看更多

01

02

03

04

练习 3

应用 OLS 将 y 与 x 中的预测因子进行回归。咱们将用这个后果作为比拟的基准。

lm(y ~ x)

向下滑动查看后果▼

练习 4

绘制 x 的每个变量系数与 β 向量的 L1 准则的门路。该图表明每个系数在哪个阶段缩减为零。

plot(model_lasso)

向下滑动查看后果▼

练习 5

失去穿插验证曲线和最小化均匀穿插验证误差的 lambda 的值。

plot(cv_fit)

向下滑动查看后果▼

练习 6

应用上一个练习中的 lambda 的最小值,失去预计的 β 矩阵。留神,有些系数曾经缩减为零。这表明哪些预测因子在解释 y 的变动方面是重要的。

> fit$beta

向下滑动查看后果▼

练习 7

为了失去一个更扼要的模型,咱们能够应用一个更高的 λ 值,即在最小值的一个标准误差之内。用这个 lambda 值来失去 β 系数。留神,当初有更多的系数被缩减为零。

lambda.1se
beta

向下滑动查看后果▼

练习 8

如前所述,x2 蕴含更多的预测因子。应用 OLS,将 y 回归到 x2,并评估后果。

summary(ols2)

向下滑动查看后果▼

练习 9

对新模型反复练习 -4。

lasso(x2, y)plot(model_lasso1)

向下滑动查看后果▼

练习 10

对新模型反复练习 5 和 6,看看哪些系数被缩减为零。当有很多候选变量时,这是放大重要预测变量的无效办法。

plot(cv_fit1)
beta

向下滑动查看后果▼


本文摘选 R 语言 Lasso 回归模型变量抉择和糖尿病倒退预测模型 ,点击“ 浏览原文”获取全文残缺材料。


点击题目查阅往期内容

【视频】Lasso 回归、岭回归正则化回归数学原理及 R 软件实例 \
群组变量抉择、组惩办 group lasso 套索模型预测新生儿出世体重危险因素数据和穿插验证、可视化 \
【视频】Lasso 回归、岭回归等正则化回归数学原理及 R 语言实例 R 语言 Lasso 回归模型变量抉择和糖尿病倒退预测模型 \
用 LASSO,adaptive LASSO 预测通货膨胀工夫序列 MATLAB 用 Lasso 回归拟合高维数据和穿插验证 \
群组变量抉择、组惩办 group lasso 套索模型预测新生儿出世体重危险因素数据和穿插验证、可视化 \
高维数据惩办回归办法:主成分回归 PCR、岭回归、lasso、弹性网络 elastic net 剖析基因数据 \
Python 高维变量抉择:SCAD 平滑剪切相对偏差惩办、Lasso 惩办函数比拟 \
R 应用 LASSO 回归预测股票收益 \
狭义线性模型 glm 泊松回归的 lasso、弹性网络分类预测学生考试成绩数据和穿插验证 \
贝叶斯分位数回归、lasso 和自适应 lasso 贝叶斯分位数回归剖析免疫球蛋白、前列腺癌数据 \
R 语言 RSTAN MCMC:NUTS 采样算法用 LASSO 构建贝叶斯线性回归模型剖析职业声望数据 \
r 语言中对 LASSO 回归,Ridge 岭回归和弹性网络 Elastic Net 模型实现 \
R 语言高维数据惩办回归办法:主成分回归 PCR、岭回归、lasso、弹性网络 elastic net 剖析基因数据(含练习题)\
狭义线性模型 glm 泊松回归的 lasso、弹性网络分类预测学生考试成绩数据和穿插验证 \
贝叶斯分位数回归、lasso 和自适应 lasso 贝叶斯分位数回归剖析免疫球蛋白、前列腺癌数据 \
R 语言 RSTAN MCMC:NUTS 采样算法用 LASSO 构建贝叶斯线性回归模型剖析职业声望数据 \
r 语言中对 LASSO 回归,Ridge 岭回归和弹性网络 Elastic Net 模型实现 \
R 语言高维数据惩办回归办法:主成分回归 PCR、岭回归、lasso、弹性网络 elastic net 剖析基因数据(含练习题)\
Python 中 LARS 和 Lasso 回归之最小角算法 Lars 剖析波士顿住房数据实例 \
R 语言自适应 LASSO 多项式回归、二元逻辑回归和岭回归利用剖析 \
R 语言惩办 logistic 逻辑回归(LASSO, 岭回归)高维变量抉择的分类模型案例 \
Python 中的 Lasso 回归之最小角算法 LARS\
r 语言中对 LASSO 回归,Ridge 岭回归和弹性网络 Elastic Net 模型实现 \
R 语言实现 LASSO 回归——本人编写 LASSO 回归算法 \
r 语言中对 LASSO 回归,Ridge 岭回归和 Elastic Net 模型实现 \
R 应用 LASSO 回归预测股票收益 \
R 语言如何和何时应用 glmnet 岭回归 \
R 语言中的岭回归、套索回归、主成分回归:线性模型抉择和正则化 \
Python 中的 ARIMA 模型、SARIMA 模型和 SARIMAX 模型对工夫序列预测 \
R 语言 arima,向量自回归(VAR),周期自回归 (PAR) 模型剖析温度工夫序列 \
【视频】Python 和 R 语言应用指数加权均匀(EWMA),ARIMA 自回归挪动均匀模型预测工夫序列 \
Python 用 ARIMA 和 SARIMA 模型预测销量工夫序列数据

退出移动版