关于数据挖掘:贝叶斯分位数回归lasso和自适应lasso贝叶斯分位数回归分析免疫球蛋白前列腺癌数据附代码数据

3次阅读

共计 4000 个字符,预计需要花费 10 分钟才能阅读完成。

原文链接:http://tecdat.cn/?p=22702

最近咱们被客户要求撰写对于贝叶斯分位数回归的钻研报告,包含一些图形和统计输入。

贝叶斯回归分位数在最近的文献中受到宽泛关注,本文实现了贝叶斯系数预计和回归分位数(RQ)中的变量抉择,带有 lasso 和自适应 lasso 惩办的贝叶斯

摘要

还包含总结后果、绘制门路图、后验直方图、自相干图和绘制分位数图的进一步建模性能。

简介

回归分位数(RQ)由(Koenker 和 Gilbert,1978)提出,将感兴趣的后果的条件分位数作为预测因子的函数来建模。自引入以来,分位数回归始终是理论界十分关注的话题,也在许多钻研畛域失去了大量的利用,如计量经济学、市场营销、医学、生态学和生存剖析(Neelon 等,2015;Davino 等,2013;Hao 和 Naiman,2007)。假如咱们有一个察看样本{(xi , yi);i = 1, 2, – -, n},其中 yi 示意因变量,xi 示意协变量的 k 维矢量。

贝叶斯 \_分位数 \_回归

Tobit RQ 为形容非负因变量和协变量向量之间的关系提供了一种办法,能够被表述为因变量的数据未被齐全察看到的分位数回归模型。对于 Tobit 分位数回归模型有相当多的文献,咱们能够参考 Powell(1986)、Portnoy(2003)、Portnoy 和 Lin(2010)以及 Kozumi 和 Kobayashi(2011)来理解详情。考虑一下这个模型。

其中,yi 是察看到的因变量,y∗i 是相应的潜在的未察看到的因变量,y 0 是一个已知的点。能够证实,RQ 系数向量 β 能够通过以下最小化问题的解来继续预计 \

Yu 和 Stander(2007)提出了一种 Tobit RQ 的贝叶斯办法,应用 ALD 计算误差,并应用 Metropolis-Hastings(MH)办法从其后验散布中抽取 β。

实在数据实例

咱们思考用实在的数据例子。

免疫球蛋白 G 数据

这个数据集包含 298 名 6 个月到 6 岁儿童的免疫球蛋白 G 的血清浓度(克 / 升),Isaacs 等人(1983)对其进行了具体探讨,Yu 等人(2003)也应用了该数据集。为了阐明问题,该数据集的贝叶斯分位数回归模型(能够拟合如下)。

rq(血清浓度~ 年龄, tau=0.5)

摘要函数提供估计值和 95% 的置信区间

绘制数据,而后将五条拟合的 RQ 线叠加在散点图上。

R> for (i in 1:5) {+ taus=c(0.05, 0.25, 0.5, 0.75, 0.95)
+ rq(tau=taus[i])
+ abline(fit, col=i)
+ }
R> 
R> for (i in 1:5) {+ fit = rq(年龄 +I(年龄 ^2),tau=taus[i])
+ curve(,add=TRUE)
+ }

图 2:免疫球蛋白 G 数据的散点图和 RQ 拟合。


点击题目查阅往期内容

matlab 应用分位数随机森林(QRF)回归树检测异样值

左右滑动查看更多

01

02

03

04

该图显示了 298 名 6 个月至 6 岁儿童的免疫球蛋白 G 的散点图。叠加在该图上的是 {.05, .25, .50, .75, .95} 的 RQ 线(左图)和 RQ 线(左图)和 RQ 曲线(右图)。

图能够用来评估吉布斯采样向安稳散布的收敛状况。咱们在图 1 中只报告了 τ =0.50 时每个参数的门路图和后验直方图。咱们应用以下代码

plot(fit,"tracehist",D=c(1,2))

能够通过生成门路图、后验直方图、自相干图来对 Gibbs 采样的绘制后果进行图形总结。门路和直方图,门路和自相干,直方图和自相干,以及门路、直方图和自相干。这个函数还有一个选项。在图 3 中,免疫球蛋白 G 数据系数的门路图表明,采样从后验空间的一个偏僻区域跳到另一个区域的步骤绝对较少。此外,直方图显示边际密度实际上是所冀望的安稳的单变量常态。

图 3:当 τ =0.50 时,免疫球蛋白 G 数据集的系数的门路和密度图。

前列腺癌数据

在本大节中,咱们阐明贝叶斯分位数回归在前列腺癌数据集(Stamey 等人,1989)上的体现。该数据集考察了期待根治性前列腺切除术的病人的前列腺特异性抗原(lpsa)程度和八个协变量之间的关系。

这些协变量是:癌症对数体积(lcavol)、前列腺的对数分量(lweight)、年龄(age)、良性前列腺的对数体积(lbph)、精囊进犯(svi)、胶囊穿透的对数(lcp)、格里森评分(gleason)以及格里森评分 4 或 5 的百分比(pgg45)。

在本大节中,咱们假如因变量(lpsa)均值为零,而预测因子已被标准化,均值为零。为了阐明问题,咱们思考当 τ =0.50 时,贝叶斯 lasso 套索 RQ(办法 =”BLqr”)。在这种状况下,咱们应用以下代码

R> x=as.matrix(x)
R> rq(y~x,tau = 0.5, method="BLqr")

模型法可用于确定回归中的沉闷变量。

相应的吉布斯采样的收敛性是通过生成样本的门路图和边际后验直方图评估的。因而,图能够用来提供一个对于吉布斯采样器收敛的图形查看,通过应用以下代码查看门路图和边际后验直方图。

plot(fit, type="trace")

上述代码的后果别离显示在图 4 和图 5 中。图 4 中的门路图显示,生成的样本迅速穿梭了后验空间,图 5 中的边际后验直方图显示,条件后验散布实际上是所需的安稳单变量常态。

小麦数据

咱们思考一个小麦数据集。这个数据集来自于国家小麦种植倒退打算(2017)。这个小麦数据由 11 个变量的 584 个观测值组成。因变量是每 2500 平方米小麦产量减少的百分比。协变量是化肥尿素(U)、小麦种子收获日期(Ds)、小麦种子播种量(Qs)、激光平田技术(LT)、复合肥施肥(NPK)、播种机技术(SMT)、绿豆作物种植(SC)、作物除草剂(H)、作物高钾肥(K)、微量元素肥料(ME)。

上面的命令给出了 τ =0.50 时 Tobit RQ 的后验散布。

rq(y~x,tau=0.5, methods="Btqr")

还能够拟合贝叶斯 lassoTobit 分位数回归和贝叶斯自适应 lassoTobit 分位数回归。当 τ =0.50 时,函数能够用来取得 Tobit 分位数回归的后验平均值和 95% 的置信区间。

论断

在本文中,咱们曾经阐明了在分位数回归(RQ)中进行贝叶斯系数预计和变量抉择。此外,本文还实现了带有 lasso 和自适应 lasso 惩办的贝叶斯 Tobit 分位数回归。还包含总结后果、绘制门路图、后验直方图、自相干图和绘制定量图的进一步建模。

参考文献

Alhamzawi, R., K. Yu, and D. F. Benoit (2012). Bayesian adaptive lasso quantile regression. Statistical Modelling 12 (3), 279–297.

Brownlee, K. A. (1965). Statistical theory and methodology in science and engineering, Volume 150. Wiley New York.

Davino, C., M. Furno, and D. Vistocco (2013). Quantile regression: theory and applications. John Wiley & Sons.


本文摘选 R 语言实现贝叶斯分位数回归、lasso 和自适应 lasso 贝叶斯分位数回归剖析 ,点击“ 浏览原文”获取全文残缺材料。


点击题目查阅往期内容

R 语言 RSTAN MCMC:NUTS 采样算法用 LASSO 构建贝叶斯线性回归模型剖析职业声望数据 \
R 语言 STAN 贝叶斯线性回归模型剖析气候变化影响北半球海冰范畴和可视化查看模型收敛性 \
R 语言贝叶斯 MCMC:用 rstan 建设线性回归模型剖析汽车数据和可视化诊断 \
R 语言贝叶斯 MCMC:GLM 逻辑回归、Rstan 线性回归、Metropolis Hastings 与 Gibbs 采样算法实例 \
R 语言贝叶斯 Poisson 泊松 - 正态分布模型剖析职业足球比赛进球数 \
R 语言用 Rcpp 减速 Metropolis-Hastings 抽样预计贝叶斯逻辑回归模型的参数 \
R 语言逻辑回归、Naive Bayes 贝叶斯、决策树、随机森林算法预测心脏病 \
R 语言中贝叶斯网络(BN)、动静贝叶斯网络、线性模型剖析错颌畸形数据 \
R 语言中的 block Gibbs 吉布斯采样贝叶斯多元线性回归 \
Python 贝叶斯回归剖析住房累赘能力数据集 \
R 语言实现贝叶斯分位数回归、lasso 和自适应 lasso 贝叶斯分位数回归剖析 \
Python 用 PyMC3 实现贝叶斯线性回归模型 \
R 语言用 WinBUGS 软件对学术能力测验建设档次(分层)贝叶斯模型 \
R 语言 Gibbs 抽样的贝叶斯简略线性回归仿真剖析 \
R 语言和 STAN,JAGS:用 RSTAN,RJAG 建设贝叶斯多元线性回归预测选举数据 \
R 语言基于 copula 的贝叶斯分层混合模型的诊断准确性钻研 \
R 语言贝叶斯线性回归和多元线性回归构建工资预测模型 \
R 语言贝叶斯推断与 MCMC:实现 Metropolis-Hastings 采样算法示例 \
R 语言 stan 进行基于贝叶斯推断的回归模型 \
R 语言中 RStan 贝叶斯层次模型剖析示例 \
R 语言应用 Metropolis-Hastings 采样算法自适应贝叶斯预计与可视化 \
R 语言随机搜寻变量抉择 SSVS 预计贝叶斯向量自回归(BVAR)模型 \
WinBUGS 对多元随机稳定率模型:贝叶斯预计与模型比拟 \
R 语言实现 MCMC 中的 Metropolis–Hastings 算法与吉布斯采样 \
R 语言贝叶斯推断与 MCMC:实现 Metropolis-Hastings 采样算法示例 \
R 语言应用 Metropolis-Hastings 采样算法自适应贝叶斯预计与可视化 \
视频:R 语言中的 Stan 概率编程 MCMC 采样的贝叶斯模型 \
R 语言 MCMC:Metropolis-Hastings 采样用于回归的贝叶斯预计

正文完
 0