关于数据挖掘:R语言广义线性模型GLM全子集回归模型选择检验分析全国风向气候数据

40次阅读

共计 2167 个字符,预计需要花费 6 分钟才能阅读完成。

全文链接:http://tecdat.cn/?p=30914

原文出处:拓端数据部落公众号

咱们正和一位敌人探讨如何在 R 软件中用 GLM 模型解决全国的气象数据。本文获取了全国的 2021 年全国的气象数据。

采样工夫:2021 年 1 月 1 号~2021 年 12 月 31 号
采样地点:全国各地。

本次考察收集了 2021 年全国不同地区的风向、降雨量、风速、风速变动、最大风速、最大降雨量、闪电概率等数据。并对不同变量之间的相关性进行了考察,对国家数据预测的错误率进行了 GLM 模型拟合。

读取数据

library(car)
library(MuMIn)
head(data)

读取因变量

numberFaults=data$numblts

head(data1)     

# 相干剖析

考察的出的各指标数据用 R 软件进行解决并且用箱图进行比照显示。

# 局部指标的箱线图

查看各变量之间的相关系数

有显著的相干关系。从变量相干关系图和矩阵,能够看到 temperatureMin 和 temperatureMax,windChillMin,windChillMax,以及 gustSpeed 和 windSpeed 之间,rainfall 和 changeInRainfall,以及 lightningRisk 和 lightningCategory 之间都有教显著的线性相关关系。yearDay 和 windChill 之间也有肯定的相干关系。

glm 线性回归模型

summary(glm.po)

测验是否存在多重共线性问题

kappa(cor(data[,c(1:15,17:20)]), exact=T)
## [1] 3.020456e+18

判断多重共线性变量

进一步模型优化

step(glm.po2)

summary(glm.step)

vif

从模型中变量的 VIF 值来看,大多数变量之间不存在较强的多重共线性关系。从残差拟合图来看,大部分样本拟合值散布在 0 四周,阐明拟合后果较现实。981,2331 和 524 号样本可能为异样点。从正态分布 qq 图来看,大部分点散布在图中直线左近。阐明样本点遵从正态分布。同样,拟合值的规范残差也散布在红线四周,阐明拟合成果较好。同样,大部分样本的 cook’distance 间隔在失常范畴内,392,624,622 号样本的 cook’distance 较大,可能会对模型产生较大的影响。

全子集回归来选出最优的模型

全子集回归, 即基于全模型取得可能 的模型 子集, 并依据 AIC 值等对子集排序以从中获取 最优 子集。

从新拟合模型

优化模型

avg(ms1, subset = delta < 10,fit=T,rank = "AIC")

残差图

plot(pre-numberFaults)

计算 R -squre 值,查看模型拟合状况

Rsquare=ssr/sst

从逻辑回归后果来看,模型中局部自变量对因变量的影响较为显著,达到了 0.01 的显著性程度,具备肯定的理论意义。然而从 AIC 的值来看,达到了 4024.881,数值较大,阐明模型的拟合度较差,有进一步改良的空间。个别认为计算条件数 kappa(X),k<100, 阐明共线性水平小,如果 1001000,存在重大的多重共线性。从后果来看,kappa 值远远大于 1000,因而判断该模型存在重大的共线性问题,即线性回归模型中的解释变量之间因为存在准确相干关系或高度相干关系而使模型预计失真或难以估计精确。changintemp,changinrainfall,windspeedmin,lightningcategory,rainfallMax 之间存在较高的相干关系会对模型的拟合失真并且难以用以预计和预测,因而,删掉这些变量后从新对模型进行拟合。删除局部共线性水平高的变量后能够看到模型的 AIC 升高了,因而,模型的拟合水平进步了。大部分样本的 cook’distance 间隔在失常范畴内,392,624,622 号样本的 cook’distance 较大,可能会对模型产生较大的影响。


最受欢迎的见解

1.[](http://tecdat.cn/r%e8%af%ad%e…)R 语言多元 Logistic 逻辑回归 利用案例

2.[](http://tecdat.cn/r%e8%af%ad%e…)面板平滑转移回归 (PSTR) 剖析案例实现

3.[](http://tecdat.cn/r%e8%af%ad%e…)matlab 中的偏最小二乘回归(PLSR)和主成分回归(PCR)

4.[](http://tecdat.cn/r%e8%af%ad%e…)R 语言泊松 Poisson 回归模型剖析案例

5.[](http://tecdat.cn/r%e8%af%ad%e…)R 语言回归中的 Hosmer-Lemeshow 拟合优度测验

6.[](http://tecdat.cn/r%e8%af%ad%e…)r 语言中对 LASSO 回归,Ridge 岭回归和 Elastic Net 模型实现

7.[](http://tecdat.cn/r-%e8%af%ad%…)在 R 语言中实现 Logistic 逻辑回归

8.[](http://tecdat.cn/r%e8%af%ad%e…)python 用线性回归预测股票价格

9.[](http://tecdat.cn/r%e8%af%ad%e…)R 语言如何在生存剖析与 Cox 回归中计算 IDI,NRI 指标

正文完
 0