关于数据挖掘:R语言MCMC的lme4二元对数Logistic逻辑回归混合效应模型分析吸烟喝酒和赌博影响数据附代码数据

29次阅读

共计 4120 个字符,预计需要花费 11 分钟才能阅读完成。

原文下载链接:http://tecdat.cn/?p=29196

最近咱们被客户要求撰写对于逻辑回归混合效应模型的钻研报告,包含一些图形和统计输入。

吸烟、喝酒和赌博被认为是由许多因素造成的。Logistic 回归剖析是一个十分无效的模型,能够测验各种解释变量和二元反应变量之间的关系。同时,双变量模型剖析也被用于检验单变量模型之间的相关性。本我的项目的目标是利用统计办法来测验某个因素是否对吸烟、喝酒或赌博偏好有显著影响。而后用这个后果来预测这些习惯之间的组合

绪论

本节介绍了 “ 解释吸烟喝酒和赌博的参加 “ 的钻研背景。实际上,因为吸烟、喝酒和赌博的双重性和复杂性,它们的争执从未进行。大量的人把吸烟、喝酒和赌博当作坏习惯,有许多起因使他们拥护这些习惯,许多钻研也反对他们的观点。

文献回顾

波及吸烟、饮酒和赌博习惯的关联的文献越来越多。在晚期的钻研中,许多研究者认为,吸烟、喝酒和赌博有显著的联合。每天吸烟的人比非每天吸烟的人更有可能参加赌博流动。每日吸烟者比非每日吸烟者在赌博上破费更多的工夫和金钱(Nancy M. Petry 和 Cheryl Oncken,2002)。

方法论

模型假如

从数据集来看,吸烟、喝酒和赌博的反馈显然只有是或不是,这是二进制的。而且,所有的解释因素都能够被归类或被视为间断的。因而,应用 Logistic 回归作为根本模型是牢靠的。

基础知识。Logistic 回归能够是二元的,也能够是多元的。在二进制中,后果只能是 0 或 1,而在多进制中,后果能够是三个或更多,例如,A、B 和 C 三个级别。

Logistic 函数是

而后

如果有多个解释变量,上述表达式 β0+β1x 能够批改为 β0+β1×1+β2×2+…。+ βmxm。在这种状况下,咱们假如:Y1= 吸烟,Y2= 喝酒,Y3= 赌博。咱们有 8 个解释变量,每个解释变量能够分为几个类别。因而

其中 i = 1, 2, 3

那么,如果吸烟,y1=1,否则 y1=0。

y2 = 1,如果喝酒,y2 = 0,否则。

y3=1,如果赌博,y3=0,否则。

此外,随机效应也应该被增加到模型中。

带随机效应的 Logistic 回归

剖析数据

以下显示了咱们如何进行这项钻研。首先,咱们参考文献和以前所做的钻研,以确定那些被认为对吸烟、喝酒和赌博有重大影响的潜在变量。

后果

在这一部分中,咱们将对繁多分类的解释因素进行剖析。首先,将应用箱形图来显示连续变量与吸烟、饮酒和赌博等的关联。箱形图将显示连续变量与 Yi 的关系。同时,条形图将被用来显示分类变量的影响。

吸烟后果

ggplot(smoke_age,aes(as.factor(smoking),age))+geom_boxplot()+labs(title="Smoking-age",x="smoking",y="age")

从图 1 能够看出,吸烟者的年龄中位数比非吸烟者小。吸烟者的年龄段在 18 至 87 岁之间,而非吸烟者则散布在各个年龄段。该图表明,年轻人更有可能吸烟。年龄对吸烟有显著的影响,年龄的估计值为 -0.1017,这意味着吸烟和年龄有负相关。

ggplot(smoke_gender, aes(gender,fill=as.factor(smoking)))+geom_bar(position = "fill")+labs(title ="Smoking-gender", x = "gender", y = "smoking")

参照图 2,1 代表吸烟者,0 代表不吸烟者。图中显示,男性吸烟者比女性吸烟者多一点,这意味着性别对吸烟偏好有影响。R 输入也给出了同样的论断,P 值是显著的,男性的估计值为 0.20793,这意味着男性更可能吸烟。

图 3 表明,教育程度对吸烟习惯有显著影响。吸烟的概率依照教育程度的顺序排列。领有较高教育程度的人吸烟的可能性较小。只管数据不详,但很显著,领有学位的人最不可能吸烟,而没有学历的人最可能吸烟。HNC 组的吸烟者比 EDU-18 以下组少。图 4 右侧的估计值与图中的数据相符。随着教育程度的进步,吸烟者的概率显著降落。吸烟的概率与教育程度呈负相关。


点击题目查阅往期内容

R 语言线性混合效应模型(固定效应 & 随机效应)和交互可视化 3 案例

左右滑动查看更多

01

02

03

04

带有随机效应的单变量模型

查看随机效应的显著性

fit.no < −glm(gambler 1, f amily = binomial(logit0))

And check significance using

anova(f it.ID, f it.no)

在 ’fit.no’ 中退出随机效应后,AIC 从 1269.5 升高到 895.3,P 值显示了家庭 ID 的显著影响。因而,在单变量模型中退出随机效应是正当的。

应用 ’lme4’ 拟合单变量模型

在这一节中,吸烟、喝酒和赌博的数据将在单变量模型中被拟合。以下是来自 R 的后果。

re.smoker=glmer(smoker~male+age+income+whiteO+mixed+asian+chinese+african+other+degresummary(re.smoker)

表 2 蕴含对吸烟偏好有显著影响的变量。能够得出结论:男性、年老、支出低、无学历、独身、分居或就业的人更有可能成为吸烟者。而女性、年龄较大、支出较高、有学位、学生或退休的人则不太可能成为烟民。饮酒模型也有和吸烟模型一样的问题,所以咱们也须要放弃一些列以确保模型可能收敛。

以上是本我的项目中的单变量模型,每个模型都曾经剖析过了,接下来咱们将应用这些单变量模型来拟合双变量模型。

应用 “MCMCglmm “ 拟合单变量模型

因为每个单变量模型都是由一系列因素拟合的,为了理解反馈是如何相互影响的,咱们可能还要思考到与其余性状可能存在的协方差。

model.smoker<- MCMCglmm(smoker~male+age+income+whiteO+mixed+asian+chinese+african+arasummary(model.smoker)

表 5 中的显著变量与表 2 十分类似,惟一不同的是,被放弃的变量 “edu unknown “ 和 “employother “ 在表 5 中是显著变量。

从表 6 和表 3 能够看出,应用 ’lme4’ 和 ’MCMCglmm’ 的饮酒模型预测了雷同的显著效果。

与表 7 和表 4 相比,大多数重要的变量是雷同的,只有 “ 就业 “ 在应用 “lme4 “ 的赌博模型中不显著。

应用 ’MCMCglmm’ 的双变量模型

在本节中,咱们将计算出本我的项目的最终后果,即吸烟、喝酒和赌博习惯之间的关系。

在这里,咱们能够计算出吸烟者和饮酒者之间的相干关系,其方差为

相关性 =posterior.mode(correlation) = 0.16

正相干表明,在这个双变量模型中,喜爱吸烟的人更可能是饮酒者。

在剖析了吸烟者和饮酒者之间的相关性之后,咱们当初用双变量的 ’MCMCglmm’ 模型来测试吸烟者和赌博者之间的关系船。表 9 显示了单变量模型的协变量。

启发

通过应用逻辑回归法,咱们可能确定导致吸烟、喝酒和赌博的重要因素。在本我的项目中,仿佛对这三种习惯都有影响的重要因素是性别、教育程度和婚姻状况。同时,本钻研还给出了每个分类因素的估计值,这能够用来阐明某个因素对这些习惯的影响是踊跃的还是消极的。

吸烟、饮酒和赌博之间的组合是通过双变量模型来测验的。利用这个模型,咱们能够失去吸烟模型、饮酒模型和赌博模型之间的固定和随机效应的相干关系。例如,通过正相干关系,咱们能够阐明喜爱吸烟的人也会喜爱喝酒。

References

Kenneth J.Mukamal. The effects of smoking and drinking on cardiovascular disease and risk factors. Alcohol Research & Health Vol. 29, No. 3, 2006

William J. Blot, Joseph K. McLaughlin, Deborah M. Winn, et al. 吸烟和饮酒与口腔和咽喉癌的关系. 癌症钻研》1988;48:3282-3287。


 

点击文末 “浏览原文”

获取全文残缺代码数据资料。

本文选自《R 语言 MCMC 的 lme4 二元对数 Logistic 逻辑回归混合效应模型剖析吸烟、喝酒和赌博影响数据》。

点击题目查阅往期内容

R 语言线性混合效应模型(固定效应 & 随机效应)和交互可视化 3 案例
非线性混合效应 NLME 模型反抗哮喘药物茶碱动力学钻研
生态学模仿对狭义线性混合模型 GLMM 进行功率(效用、效力、效劳)剖析 power analysis 环境监测数据
无限混合模型聚类 FMM、狭义线性回归模型 GLM 混合利用剖析威士忌市场和钻研专利申请数据
如何用潜类别混合效应模型 (Latent Class Mixed Model ,LCMM) 剖析老年痴呆年龄数据
R 语言用 lme4 多层次(混合效应)狭义线性模型(GLM),逻辑回归剖析教育留级考察数据 R 语言 线性混合效应模型实战案例
R 语言混合效应逻辑回归(mixed effects logistic)模型剖析肺癌数据
R 语言如何用潜类别混合效应模型(LCMM)剖析抑郁症状
R 语言基于 copula 的贝叶斯分层混合模型的诊断准确性钻研
R 语言建设和可视化混合效应模型 mixed effect model
R 语言 LME4 混合效应模型钻研老师的受欢迎水平
R 语言 线性混合效应模型实战案例
R 语言用 Rshiny 摸索 lme4 狭义线性混合模型(GLMM)和线性混合模型(LMM)
R 语言基于 copula 的贝叶斯分层混合模型的诊断准确性钻研
R 语言如何解决线性混合模型中畸形拟合 (Singular fit) 的问题
基于 R 语言的 lmer 混合线性回归模型
R 语言用 WinBUGS 软件对学术能力测验建设档次(分层)贝叶斯模型
R 语言分层线性模型案例
R 语言用 WinBUGS 软件对学术能力测验(SAT)建设分层模型
应用 SAS,Stata,HLM,R,SPSS 和 Mplus 的分层线性模型 HLM
R 语言用 WinBUGS 软件对学术能力测验建设档次(分层)贝叶斯模型
SPSS 中的多层(等级)线性模型 Multilevel linear models 钻研整容手术数据
用 SPSS 预计 HLM 多层(档次)线性模型模型

正文完
 0