原文下载链接:http://tecdat.cn/?p=29196

最近咱们被客户要求撰写对于逻辑回归混合效应模型的钻研报告,包含一些图形和统计输入。

吸烟、喝酒和赌博被认为是由许多因素造成的。Logistic回归剖析是一个十分无效的模型,能够测验各种解释变量和二元反应变量之间的关系。同时,双变量模型剖析也被用于检验单变量模型之间的相关性。本我的项目的目标是利用统计办法来测验某个因素是否对吸烟、喝酒或赌博偏好有显著影响。而后用这个后果来预测这些习惯之间的组合

绪论

本节介绍了 "解释吸烟喝酒和赌博的参加 "的钻研背景。实际上,因为吸烟、喝酒和赌博的双重性和复杂性,它们的争执从未进行。大量的人把吸烟、喝酒和赌博当作坏习惯,有许多起因使他们拥护这些习惯,许多钻研也反对他们的观点。

文献回顾

波及吸烟、饮酒和赌博习惯的关联的文献越来越多。在晚期的钻研中,许多研究者认为,吸烟、喝酒和赌博有显著的联合。每天吸烟的人比非每天吸烟的人更有可能参加赌博流动。每日吸烟者比非每日吸烟者在赌博上破费更多的工夫和金钱(Nancy M. Petry和Cheryl Oncken,2002)。

方法论

模型假如

从数据集来看,吸烟、喝酒和赌博的反馈显然只有是或不是,这是二进制的。而且,所有的解释因素都能够被归类或被视为间断的。因而,应用Logistic回归作为根本模型是牢靠的。

基础知识。Logistic回归能够是二元的,也能够是多元的。在二进制中,后果只能是0或1,而在多进制中,后果能够是三个或更多,例如,A、B和C三个级别。

Logistic函数是

而后

如果有多个解释变量,上述表达式0+1x能够批改为0+1x1+2x2+...。+ mxm。在这种状况下,咱们假如:Y1=吸烟,Y2=喝酒,Y3=赌博。咱们有8个解释变量,每个解释变量能够分为几个类别。因而

其中i = 1, 2, 3

那么,如果吸烟,y1=1,否则y1=0。

y2 = 1,如果喝酒,y2 = 0,否则。

y3=1,如果赌博,y3=0,否则。 

此外,随机效应也应该被增加到模型中。

带随机效应的Logistic回归

剖析数据

以下显示了咱们如何进行这项钻研。首先,咱们参考文献和以前所做的钻研,以确定那些被认为对吸烟、喝酒和赌博有重大影响的潜在变量。

后果

在这一部分中,咱们将对繁多分类的解释因素进行剖析。首先,将应用箱形图来显示连续变量与吸烟、饮酒和赌博等的关联。箱形图将显示连续变量与Yi的关系。同时,条形图将被用来显示分类变量的影响。

吸烟后果

ggplot(smoke_age,aes(as.factor(smoking),age))+geom_boxplot()+labs(title="Smoking-age",x="smoking",y="age")

从图1能够看出,吸烟者的年龄中位数比非吸烟者小。吸烟者的年龄段在18至87岁之间,而非吸烟者则散布在各个年龄段。该图表明,年轻人更有可能吸烟。年龄对吸烟有显著的影响,年龄的估计值为-0.1017,这意味着吸烟和年龄有负相关。

ggplot(smoke_gender, aes(gender,fill=as.factor(smoking)))+geom_bar(position = "fill")+labs(title ="Smoking-gender", x = "gender", y = "smoking")

参照图2,1代表吸烟者,0代表不吸烟者。图中显示,男性吸烟者比女性吸烟者多一点,这意味着性别对吸烟偏好有影响。R输入也给出了同样的论断,P值是显著的,男性的估计值为0.20793,这意味着男性更可能吸烟。

图3表明,教育程度对吸烟习惯有显著影响。吸烟的概率依照教育程度的顺序排列。领有较高教育程度的人吸烟的可能性较小。只管数据不详,但很显著,领有学位的人最不可能吸烟,而没有学历的人最可能吸烟。HNC组的吸烟者比EDU-18以下组少。图4右侧的估计值与图中的数据相符。随着教育程度的进步,吸烟者的概率显著降落。吸烟的概率与教育程度呈负相关。


点击题目查阅往期内容

R语言线性混合效应模型(固定效应&随机效应)和交互可视化3案例

左右滑动查看更多

01

02

03

04

带有随机效应的单变量模型

查看随机效应的显著性

fit.no < −glm(gambler 1, f amily = binomial(logit0))

And check significance using

anova(f it.ID, f it.no)

在'fit.no'中退出随机效应后,AIC从1269.5升高到895.3,P值显示了家庭ID的显著影响。因而,在单变量模型中退出随机效应是正当的。

应用'lme4'拟合单变量模型

在这一节中,吸烟、喝酒和赌博的数据将在单变量模型中被拟合。以下是来自R的后果。

re.smoker=glmer(smoker~male+age+income+whiteO+mixed+asian+chinese+african+other+degresummary(re.smoker)

表2蕴含对吸烟偏好有显著影响的变量。能够得出结论:男性、年老、支出低、无学历、独身、分居或就业的人更有可能成为吸烟者。而女性、年龄较大、支出较高、有学位、学生或退休的人则不太可能成为烟民。饮酒模型也有和吸烟模型一样的问题,所以咱们也须要放弃一些列以确保模型可能收敛。

以上是本我的项目中的单变量模型,每个模型都曾经剖析过了,接下来咱们将应用这些单变量模型来拟合双变量模型。

应用 "MCMCglmm "拟合单变量模型

因为每个单变量模型都是由一系列因素拟合的,为了理解反馈是如何相互影响的,咱们可能还要思考到与其余性状可能存在的协方差。

model.smoker<- MCMCglmm(smoker~male+age+income+whiteO+mixed+asian+chinese+african+arasummary(model.smoker)

表5中的显著变量与表2十分类似,惟一不同的是,被放弃的变量 "edu unknown "和 "employother "在表5中是显著变量。

从表6和表3能够看出,应用'lme4'和'MCMCglmm'的饮酒模型预测了雷同的显著效果。

与表7和表4相比,大多数重要的变量是雷同的,只有 "就业 "在应用 "lme4 "的赌博模型中不显著。

应用'MCMCglmm'的双变量模型

在本节中,咱们将计算出本我的项目的最终后果,即吸烟、喝酒和赌博习惯之间的关系。

在这里,咱们能够计算出吸烟者和饮酒者之间的相干关系,其方差为

相关性=posterior.mode(correlation) = 0.16

正相干表明,在这个双变量模型中,喜爱吸烟的人更可能是饮酒者。

在剖析了吸烟者和饮酒者之间的相关性之后,咱们当初用双变量的'MCMCglmm'模型来测试吸烟者和赌博者之间的关系船。表9显示了单变量模型的协变量。

启发

通过应用逻辑回归法,咱们可能确定导致吸烟、喝酒和赌博的重要因素。在本我的项目中,仿佛对这三种习惯都有影响的重要因素是性别、教育程度和婚姻状况。同时,本钻研还给出了每个分类因素的估计值,这能够用来阐明某个因素对这些习惯的影响是踊跃的还是消极的。

吸烟、饮酒和赌博之间的组合是通过双变量模型来测验的。利用这个模型,咱们能够失去吸烟模型、饮酒模型和赌博模型之间的固定和随机效应的相干关系。例如,通过正相干关系,咱们能够阐明喜爱吸烟的人也会喜爱喝酒。

References

Kenneth J.Mukamal. The effects of smoking and drinking on cardiovascular disease and risk factors. Alcohol Research & Health Vol. 29, No. 3, 2006

William J. Blot, Joseph K. McLaughlin, Deborah M. Winn, et al. 吸烟和饮酒与口腔和咽喉癌的关系. 癌症钻研》1988;48:3282-3287。


 

点击文末 “浏览原文”

获取全文残缺代码数据资料。

本文选自《R语言MCMC的lme4二元对数Logistic逻辑回归混合效应模型剖析吸烟、喝酒和赌博影响数据》。

点击题目查阅往期内容

R语言线性混合效应模型(固定效应&随机效应)和交互可视化3案例
非线性混合效应 NLME模型反抗哮喘药物茶碱动力学钻研
生态学模仿对狭义线性混合模型GLMM进行功率(效用、效力、效劳)剖析power analysis环境监测数据
无限混合模型聚类FMM、狭义线性回归模型GLM混合利用剖析威士忌市场和钻研专利申请数据
如何用潜类别混合效应模型(Latent Class Mixed Model ,LCMM)剖析老年痴呆年龄数据
R语言用lme4多层次(混合效应)狭义线性模型(GLM),逻辑回归剖析教育留级考察数据R语言 线性混合效应模型实战案例
R语言混合效应逻辑回归(mixed effects logistic)模型剖析肺癌数据
R语言如何用潜类别混合效应模型(LCMM)剖析抑郁症状
R语言基于copula的贝叶斯分层混合模型的诊断准确性钻研
R语言建设和可视化混合效应模型mixed effect model
R语言LME4混合效应模型钻研老师的受欢迎水平
R语言 线性混合效应模型实战案例
R语言用Rshiny摸索lme4狭义线性混合模型(GLMM)和线性混合模型(LMM)
R语言基于copula的贝叶斯分层混合模型的诊断准确性钻研
R语言如何解决线性混合模型中畸形拟合(Singular fit)的问题
基于R语言的lmer混合线性回归模型
R语言用WinBUGS 软件对学术能力测验建设档次(分层)贝叶斯模型
R语言分层线性模型案例
R语言用WinBUGS 软件对学术能力测验(SAT)建设分层模型
应用SAS,Stata,HLM,R,SPSS和Mplus的分层线性模型HLM
R语言用WinBUGS 软件对学术能力测验建设档次(分层)贝叶斯模型
SPSS中的多层(等级)线性模型Multilevel linear models钻研整容手术数据
用SPSS预计HLM多层(档次)线性模型模型