关于数据挖掘:R语言广义线性模型GLM全子集回归模型选择检验分析全国风向气候数据附代码数据

54次阅读

共计 2759 个字符,预计需要花费 7 分钟才能阅读完成。

全文链接:http://tecdat.cn/?p=30914

最近咱们被客户要求撰写对于狭义线性模型的钻研报告,包含一些图形和统计输入。

咱们正和一位敌人探讨如何在 R 软件中用 GLM 模型解决全国的气象数据。本文获取了全国的 2021 年全国的气象数据

采样工夫:2021 年 1 月 1 号~2021 年 12 月 31 号 

采样地点:全国各地。

本次考察收集了 2021 年全国不同地区的风向、降雨量、风速、风速变动、最大风速、最大降雨量、闪电概率等数据。并对不同变量之间的相关性进行了考察,对国家数据预测的错误率进行了 GLM 模型拟合。

读取数据

library(car)
library(MuMIn)
head(data)

读取因变量

numberFaults=data$numblts

head(data1)

相干剖析

考察的出的各指标数据用 R 软件进行解决并且用箱图进行比照显示。

局部指标的箱线图

查看各变量之间的相关系数

有显著的相干关系。从变量相干关系图和矩阵,能够看到 temperatureMin 和 temperatureMax,windChillMin,windChillMax,以及 gustSpeed 和 windSpeed 之间,rainfall 和 changeInRainfall,以及 lightningRisk 和 lightningCategory 之间都有教显著的线性相关关系。yearDay 和 windChill 之间也有肯定的相干关系。

glm 线性回归模型

summary(glm.po)


点击题目查阅往期内容

数据分享 | R 语言用 lme4 多层次(混合效应)狭义线性模型(GLM),逻辑回归剖析教育留级考察数据

左右滑动查看更多

01

02

03

04

测验是否存在多重共线性问题

kappa(cor(data[,c(1:15,17:20)]), exact=T)
## [1] 3.020456e+18

判断多重共线性变量

进一步模型优化

step(glm.po2)

summary(glm.step)

vif

从模型中变量的 VIF 值来看,大多数变量之间不存在较强的多重共线性关系。从残差拟合图来看,大部分样本拟合值散布在 0 四周,阐明拟合后果较现实。981,2331 和 524 号样本可能为异样点。从正态分布 qq 图来看,大部分点散布在图中直线左近。阐明样本点遵从正态分布。同样,拟合值的规范残差也散布在红线四周,阐明拟合成果较好。同样,大部分样本的 cook’distance 间隔在失常范畴内,392,624,622 号样本的 cook’distance 较大,可能会对模型产生较大的影响。

全子集回归来选出最优的模型

全子集回归, 即基于全模型取得可能 的模型 子集, 并依据 AIC 值等对子集排序以从中获取 最优 子集。

从新拟合模型

优化模型

avg(ms1, subset = delta < 10,fit=T,rank = "AIC")

残差图

plot(pre-numberFaults)

计算 R -squre 值,查看模型拟合状况

Rsquare=ssr/sst

从逻辑回归后果来看,模型中局部自变量对因变量的影响较为显著,达到了 0.01 的显著性程度,具备肯定的理论意义。然而从 AIC 的值来看,达到了 4024.881,数值较大,阐明模型的拟合度较差,有进一步改良的空间。个别认为计算条件数 kappa(X),k<100, 阐明共线性水平小,如果 1001000,存在重大的多重共线性。从后果来看,kappa 值远远大于 1000,因而判断该模型存在重大的共线性问题,即线性回归模型中的解释变量之间因为存在准确相干关系或高度相干关系而使模型预计失真或难以估计精确。changintemp,changinrainfall,windspeedmin,lightningcategory,rainfallMax 之间存在较高的相干关系会对模型的拟合失真并且难以用以预计和预测,因而,删掉这些变量后从新对模型进行拟合。删除局部共线性水平高的变量后能够看到模型的 AIC 升高了,因而,模型的拟合水平进步了。大部分样本的 cook’distance 间隔在失常范畴内,392,624,622 号样本的 cook’distance 较大,可能会对模型产生较大的影响。

点击文末 “浏览原文”

获取全文残缺代码数据资料。

本文选自《R 语言狭义线性模型(GLM)、全子集回归模型抉择、测验剖析全国风向气象数据》。

点击题目查阅往期内容

R 语言用 Rshiny 摸索 lme4 狭义线性混合模型(GLMM)和线性混合模型(LMM)
R 语言用潜类别混合效应模型 (Latent Class Mixed Model ,LCMM) 剖析老年痴呆年龄数据
R 语言贝叶斯狭义线性混合(多层次 / 程度 / 嵌套)模型 GLMM、逻辑回归剖析教育留级影响因素数据 R 语言预计多元标记的潜过程混合效应模型(lcmm)剖析心理测试的认知过程
R 语言因子实验设计 nlme 拟合非线性混合模型剖析有机农业施氮程度
R 语言非线性混合效应 NLME 模型 (固定效应 & 随机效应) 反抗哮喘药物茶碱动力学钻研
R 语言用线性混合效应(多程度 / 档次 / 嵌套)模型剖析腔调高下与礼貌态度的关系
R 语言 LME4 混合效应模型钻研老师的受欢迎水平 R 语言 nlme、nlmer、lme4 用(非)线性混合模型 non-linear mixed model 剖析藻类数据实例
R 语言混合线性模型、多层次模型、回归模型剖析学生均匀问题 GPA 和可视化
R 语言线性混合效应模型(固定效应 & 随机效应)和交互可视化 3 案例
R 语言用 lme4 多层次(混合效应)狭义线性模型(GLM),逻辑回归剖析教育留级考察数据 R 语言 线性混合效应模型实战案例
R 语言混合效应逻辑回归(mixed effects logistic)模型剖析肺癌数据
R 语言如何用潜类别混合效应模型(LCMM)剖析抑郁症状
R 语言基于 copula 的贝叶斯分层混合模型的诊断准确性钻研
R 语言建设和可视化混合效应模型 mixed effect model
R 语言 LME4 混合效应模型钻研老师的受欢迎水平
R 语言 线性混合效应模型实战案例
R 语言用 Rshiny 摸索 lme4 狭义线性混合模型(GLMM)和线性混合模型(LMM)
R 语言基于 copula 的贝叶斯分层混合模型的诊断准确性钻研
R 语言如何解决线性混合模型中畸形拟合 (Singular fit) 的问题
基于 R 语言的 lmer 混合线性回归模型
R 语言用 WinBUGS 软件对学术能力测验建设档次(分层)贝叶斯模型
R 语言分层线性模型案例
R 语言用 WinBUGS 软件对学术能力测验(SAT)建设分层模型
应用 SAS,Stata,HLM,R,SPSS 和 Mplus 的分层线性模型 HLM
R 语言用 WinBUGS 软件对学术能力测验建设档次(分层)贝叶斯模型
SPSS 中的多层(等级)线性模型 Multilevel linear models 钻研整容手术数据
用 SPSS 预计 HLM 多层(档次)线性模型模型

正文完
 0