关于数据挖掘:R语言MCMC的lme4二元对数Logistic逻辑回归混合效应模型分析吸烟喝酒和赌博影响数据附代码数据

原文下载链接：http://tecdat.cn/?p=29196

最近咱们被客户要求撰写对于逻辑回归混合效应模型的钻研报告，包含一些图形和统计输入。

吸烟、喝酒和赌博被认为是由许多因素造成的。Logistic回归剖析是一个十分无效的模型，能够测验各种解释变量和二元反应变量之间的关系。同时，双变量模型剖析也被用于检验单变量模型之间的相关性。本我的项目的目标是利用统计办法来测验某个因素是否对吸烟、喝酒或赌博偏好有显著影响。而后用这个后果来预测这些习惯之间的组合

绪论

本节介绍了 “解释吸烟喝酒和赌博的参加 “的钻研背景。实际上，因为吸烟、喝酒和赌博的双重性和复杂性，它们的争执从未进行。大量的人把吸烟、喝酒和赌博当作坏习惯，有许多起因使他们拥护这些习惯，许多钻研也反对他们的观点。

文献回顾

波及吸烟、饮酒和赌博习惯的关联的文献越来越多。在晚期的钻研中，许多研究者认为，吸烟、喝酒和赌博有显著的联合。每天吸烟的人比非每天吸烟的人更有可能参加赌博流动。每日吸烟者比非每日吸烟者在赌博上破费更多的工夫和金钱（Nancy M. Petry和Cheryl Oncken，2002）。

方法论

模型假如

从数据集来看，吸烟、喝酒和赌博的反馈显然只有是或不是，这是二进制的。而且，所有的解释因素都能够被归类或被视为间断的。因而，应用Logistic回归作为根本模型是牢靠的。

基础知识。Logistic回归能够是二元的，也能够是多元的。在二进制中，后果只能是0或1，而在多进制中，后果能够是三个或更多，例如，A、B和C三个级别。

Logistic函数是

而后

如果有多个解释变量，上述表达式β0+β1x能够批改为β0+β1×1+β2×2+…。+ βmxm。在这种状况下，咱们假如：Y1=吸烟，Y2=喝酒，Y3=赌博。咱们有8个解释变量，每个解释变量能够分为几个类别。因而

和

其中i = 1, 2, 3

那么，如果吸烟，y1=1，否则y1=0。

y2 = 1，如果喝酒，y2 = 0，否则。

y3=1，如果赌博，y3=0，否则。

此外，随机效应也应该被增加到模型中。

带随机效应的Logistic回归

剖析数据

以下显示了咱们如何进行这项钻研。首先，咱们参考文献和以前所做的钻研，以确定那些被认为对吸烟、喝酒和赌博有重大影响的潜在变量。

后果

在这一部分中，咱们将对繁多分类的解释因素进行剖析。首先，将应用箱形图来显示连续变量与吸烟、饮酒和赌博等的关联。箱形图将显示连续变量与Yi的关系。同时，条形图将被用来显示分类变量的影响。

吸烟后果

ggplot(smoke_age,aes(as.factor(smoking),age))+geom_boxplot()+labs(title="Smoking-age",x="smoking",y="age")

从图1能够看出，吸烟者的年龄中位数比非吸烟者小。吸烟者的年龄段在18至87岁之间，而非吸烟者则散布在各个年龄段。该图表明，年轻人更有可能吸烟。年龄对吸烟有显著的影响，年龄的估计值为-0.1017，这意味着吸烟和年龄有负相关。

ggplot(smoke_gender, aes(gender,fill=as.factor(smoking)))+geom_bar(position = "fill")+labs(title ="Smoking-gender", x = "gender", y = "smoking")

参照图2，1代表吸烟者，0代表不吸烟者。图中显示，男性吸烟者比女性吸烟者多一点，这意味着性别对吸烟偏好有影响。R输入也给出了同样的论断，P值是显著的，男性的估计值为0.20793，这意味着男性更可能吸烟。

图3表明，教育程度对吸烟习惯有显著影响。吸烟的概率依照教育程度的顺序排列。领有较高教育程度的人吸烟的可能性较小。只管数据不详，但很显著，领有学位的人最不可能吸烟，而没有学历的人最可能吸烟。HNC组的吸烟者比EDU-18以下组少。图4右侧的估计值与图中的数据相符。随着教育程度的进步，吸烟者的概率显著降落。吸烟的概率与教育程度呈负相关。

点击题目查阅往期内容

R语言线性混合效应模型（固定效应&随机效应）和交互可视化3案例

左右滑动查看更多

带有随机效应的单变量模型

查看随机效应的显著性

fit.no < −glm(gambler 1, f amily = binomial(logit0))

And check significance using

anova(f it.ID, f it.no)

在’fit.no’中退出随机效应后，AIC从1269.5升高到895.3，P值显示了家庭ID的显著影响。因而，在单变量模型中退出随机效应是正当的。

应用’lme4’拟合单变量模型

在这一节中，吸烟、喝酒和赌博的数据将在单变量模型中被拟合。以下是来自R的后果。

re.smoker=glmer(smoker~male+age+income+whiteO+mixed+asian+chinese+african+other+degresummary(re.smoker)

表2蕴含对吸烟偏好有显著影响的变量。能够得出结论：男性、年老、支出低、无学历、独身、分居或就业的人更有可能成为吸烟者。而女性、年龄较大、支出较高、有学位、学生或退休的人则不太可能成为烟民。饮酒模型也有和吸烟模型一样的问题，所以咱们也须要放弃一些列以确保模型可能收敛。

以上是本我的项目中的单变量模型，每个模型都曾经剖析过了，接下来咱们将应用这些单变量模型来拟合双变量模型。

应用 “MCMCglmm “拟合单变量模型

因为每个单变量模型都是由一系列因素拟合的，为了理解反馈是如何相互影响的，咱们可能还要思考到与其余性状可能存在的协方差。

model.smoker<- MCMCglmm(smoker~male+age+income+whiteO+mixed+asian+chinese+african+arasummary(model.smoker)

表5中的显著变量与表2十分类似，惟一不同的是，被放弃的变量 “edu unknown “和 “employother “在表5中是显著变量。

从表6和表3能够看出，应用’lme4’和’MCMCglmm’的饮酒模型预测了雷同的显著效果。

与表7和表4相比，大多数重要的变量是雷同的，只有 “就业 “在应用 “lme4 “的赌博模型中不显著。

应用’MCMCglmm’的双变量模型

在本节中，咱们将计算出本我的项目的最终后果，即吸烟、喝酒和赌博习惯之间的关系。

在这里，咱们能够计算出吸烟者和饮酒者之间的相干关系，其方差为

相关性=posterior.mode(correlation) = 0.16

正相干表明，在这个双变量模型中，喜爱吸烟的人更可能是饮酒者。

在剖析了吸烟者和饮酒者之间的相关性之后，咱们当初用双变量的’MCMCglmm’模型来测试吸烟者和赌博者之间的关系船。表9显示了单变量模型的协变量。

启发

通过应用逻辑回归法，咱们可能确定导致吸烟、喝酒和赌博的重要因素。在本我的项目中，仿佛对这三种习惯都有影响的重要因素是性别、教育程度和婚姻状况。同时，本钻研还给出了每个分类因素的估计值，这能够用来阐明某个因素对这些习惯的影响是踊跃的还是消极的。

吸烟、饮酒和赌博之间的组合是通过双变量模型来测验的。利用这个模型，咱们能够失去吸烟模型、饮酒模型和赌博模型之间的固定和随机效应的相干关系。例如，通过正相干关系，咱们能够阐明喜爱吸烟的人也会喜爱喝酒。

References

Kenneth J.Mukamal. The effects of smoking and drinking on cardiovascular disease and risk factors. Alcohol Research & Health Vol. 29, No. 3, 2006

William J. Blot, Joseph K. McLaughlin, Deborah M. Winn, et al. 吸烟和饮酒与口腔和咽喉癌的关系. 癌症钻研》1988；48：3282-3287。

点击文末 “浏览原文”

获取全文残缺代码数据资料。

本文选自《R语言MCMC的lme4二元对数Logistic逻辑回归混合效应模型剖析吸烟、喝酒和赌博影响数据》。

点击题目查阅往期内容

R语言线性混合效应模型（固定效应&随机效应）和交互可视化3案例
非线性混合效应 NLME模型反抗哮喘药物茶碱动力学钻研
生态学模仿对狭义线性混合模型GLMM进行功率（效用、效力、效劳）剖析power analysis环境监测数据
无限混合模型聚类FMM、狭义线性回归模型GLM混合利用剖析威士忌市场和钻研专利申请数据
如何用潜类别混合效应模型(Latent Class Mixed Model ,LCMM)剖析老年痴呆年龄数据
R语言用lme4多层次（混合效应）狭义线性模型（GLM），逻辑回归剖析教育留级考察数据R语言线性混合效应模型实战案例
R语言混合效应逻辑回归（mixed effects logistic）模型剖析肺癌数据
R语言如何用潜类别混合效应模型（LCMM）剖析抑郁症状
R语言基于copula的贝叶斯分层混合模型的诊断准确性钻研
R语言建设和可视化混合效应模型mixed effect model
R语言LME4混合效应模型钻研老师的受欢迎水平
R语言线性混合效应模型实战案例
R语言用Rshiny摸索lme4狭义线性混合模型（GLMM）和线性混合模型（LMM）
R语言基于copula的贝叶斯分层混合模型的诊断准确性钻研
R语言如何解决线性混合模型中畸形拟合(Singular fit)的问题
基于R语言的lmer混合线性回归模型
R语言用WinBUGS 软件对学术能力测验建设档次（分层）贝叶斯模型
R语言分层线性模型案例
R语言用WinBUGS 软件对学术能力测验（SAT）建设分层模型
应用SAS，Stata，HLM，R，SPSS和Mplus的分层线性模型HLM
R语言用WinBUGS 软件对学术能力测验建设档次（分层）贝叶斯模型
SPSS中的多层（等级）线性模型Multilevel linear models钻研整容手术数据
用SPSS预计HLM多层（档次）线性模型模型

关于数据挖掘:R语言MCMC的lme4二元对数Logistic逻辑回归混合效应模型分析吸烟喝酒和赌博影响数据附代码数据

原文下载链接：http://tecdat.cn/?p=29196

绪论

文献回顾

方法论

模型假如

带随机效应的Logistic回归

剖析数据

后果

带有随机效应的单变量模型

应用’lme4’拟合单变量模型

应用 “MCMCglmm “拟合单变量模型

应用’MCMCglmm’的双变量模型

启发

References

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于数据挖掘:R语言MCMC的lme4二元对数Logistic逻辑回归混合效应模型分析吸烟喝酒和赌博影响数据附代码数据

原文下载链接：http://tecdat.cn/?p=29196

绪论

文献回顾

方法论

模型假如

带随机效应的Logistic回归

剖析数据

后果

带有随机效应的单变量模型

应用’lme4’拟合单变量模型

应用 “MCMCglmm “拟合单变量模型

应用’MCMCglmm’的双变量模型

启发

References

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复