全文链接:http://tecdat.cn/?p=30914

最近咱们被客户要求撰写对于狭义线性模型(GLM)的钻研报告,包含一些图形和统计输入。

咱们正和一位敌人探讨如何在R软件中用GLM模型解决全国的气象数据。本文获取了全国的2021年全国的气象数据

采样工夫:2021年1月1号~2021年12月31号 

采样地点:全国各地。

本次考察收集了2021年全国不同地区的风向、降雨量、风速、风速变动、最大风速、最大降雨量、闪电概率等数据。并对不同变量之间的相关性进行了考察,对国家数据预测的错误率进行了GLM模型拟合。

读取数据

library(car)library(MuMIn)head(data)

读取因变量

numberFaults=data$numbltshead(data1)

相干剖析

考察的出的各指标数据用R软件进行解决并且用箱图进行比照显示。

局部指标的箱线图

查看各变量之间的相关系数

有显著的相干关系。从变量相干关系图和矩阵,能够看到temperatureMin和temperatureMax,windChillMin,windChillMax,以及gustSpeed和windSpeed之间,rainfall和changeInRainfall,以及lightningRisk和lightningCategory之间都有教显著的线性相关关系。yearDay和windChill之间也有肯定的相干关系。

glm 线性回归模型

summary(glm.po)


点击题目查阅往期内容

数据分享|R语言用lme4多层次(混合效应)狭义线性模型(GLM),逻辑回归剖析教育留级考察数据

左右滑动查看更多

01

02

03

04

测验是否存在多重共线性问题

kappa(cor(data[,c(1:15,17:20)]), exact=T)
## [1] 3.020456e+18

判断多重共线性变量

进一步模型优化

step(glm.po2)

summary(glm.step)

vif

从模型中变量的VIF值来看,大多数变量之间不存在较强的多重共线性关系。从残差拟合图来看,大部分样本拟合值散布在0四周,阐明拟合后果较现实。981,2331和524号样本可能为异样点。从正态分布qq图来看,大部分点散布在图中直线左近。阐明样本点遵从正态分布。同样,拟合值的规范残差也散布在红线四周,阐明拟合成果较好。同样,大部分样本的cook’ distance间隔在失常范畴内,392,624,622号样本的cook’ distance较大,可能会对模型产生较大的影响。

全子集回归来选出最优的模型

全子集回归,即基于全模型取得可能的模型子集,并依据AIC值等对子集排序以从中获取最优子集。

从新拟合模型

优化模型

avg(ms1, subset = delta < 10,fit=T,rank = "AIC")

残差图

plot(pre-numberFaults)

计算R-squre值,查看模型拟合状况

Rsquare=ssr/sst

从逻辑回归后果来看,模型中局部自变量对因变量的影响较为显著,达到了0.01的显著性程度,具备肯定的理论意义。然而从AIC的值来看,达到了4024.881,数值较大,阐明模型的拟合度较差,有进一步改良的空间。个别认为计算条件数kappa(X),k<100,阐明共线性水平小,如果1001000,存在重大的多重共线性。从后果来看,kappa值远远大于1000,因而判断该模型存在重大的共线性问题,即线性回归模型中的解释变量之间因为存在准确相干关系或高度相干关系而使模型预计失真或难以估计精确。changintemp,changinrainfall,windspeedmin,lightningcategory ,rainfallMax之间存在较高的相干关系会对模型的拟合失真并且难以用以预计和预测,因而,删掉这些变量后从新对模型进行拟合。删除局部共线性水平高的变量后能够看到模型的AIC升高了,因而,模型的拟合水平进步了。大部分样本的cook’ distance间隔在失常范畴内,392,624,622号样本的cook’ distance较大,可能会对模型产生较大的影响。

点击文末 “浏览原文”

获取全文残缺代码数据资料。

本文选自《R语言狭义线性模型(GLM)、全子集回归模型抉择、测验剖析全国风向气象数据》。

点击题目查阅往期内容

R语言用Rshiny摸索lme4狭义线性混合模型(GLMM)和线性混合模型(LMM)
R语言用潜类别混合效应模型(Latent Class Mixed Model ,LCMM)剖析老年痴呆年龄数据
R语言贝叶斯狭义线性混合(多层次/程度/嵌套)模型GLMM、逻辑回归剖析教育留级影响因素数据R语言预计多元标记的潜过程混合效应模型(lcmm)剖析心理测试的认知过程
R语言因子实验设计nlme拟合非线性混合模型剖析有机农业施氮程度
R语言非线性混合效应 NLME模型(固定效应&随机效应)反抗哮喘药物茶碱动力学钻研
R语言用线性混合效应(多程度/档次/嵌套)模型剖析腔调高下与礼貌态度的关系
R语言LME4混合效应模型钻研老师的受欢迎水平R语言nlme、nlmer、lme4用(非)线性混合模型non-linear mixed model剖析藻类数据实例
R语言混合线性模型、多层次模型、回归模型剖析学生均匀问题GPA和可视化
R语言线性混合效应模型(固定效应&随机效应)和交互可视化3案例
R语言用lme4多层次(混合效应)狭义线性模型(GLM),逻辑回归剖析教育留级考察数据R语言 线性混合效应模型实战案例
R语言混合效应逻辑回归(mixed effects logistic)模型剖析肺癌数据
R语言如何用潜类别混合效应模型(LCMM)剖析抑郁症状
R语言基于copula的贝叶斯分层混合模型的诊断准确性钻研
R语言建设和可视化混合效应模型mixed effect model
R语言LME4混合效应模型钻研老师的受欢迎水平
R语言 线性混合效应模型实战案例
R语言用Rshiny摸索lme4狭义线性混合模型(GLMM)和线性混合模型(LMM)
R语言基于copula的贝叶斯分层混合模型的诊断准确性钻研
R语言如何解决线性混合模型中畸形拟合(Singular fit)的问题
基于R语言的lmer混合线性回归模型
R语言用WinBUGS 软件对学术能力测验建设档次(分层)贝叶斯模型
R语言分层线性模型案例
R语言用WinBUGS 软件对学术能力测验(SAT)建设分层模型
应用SAS,Stata,HLM,R,SPSS和Mplus的分层线性模型HLM
R语言用WinBUGS 软件对学术能力测验建设档次(分层)贝叶斯模型
SPSS中的多层(等级)线性模型Multilevel linear models钻研整容手术数据
用SPSS预计HLM多层(档次)线性模型模型