乐趣区

关于数据挖掘:数据代码分享R语言回归分析体脂数据公交绿色出行与全球变暖2案例

全文链接:http://tecdat.cn/?p=32520

原文出处:拓端数据部落公众号

通常在事实利用中,咱们须要去了解一个变量是如何被一些其余变量所决定的。

答复这样的问题,须要咱们去建设一个模型。一个模型就是一个公式之中,一个因变量(dependent variable)(须要预测的值)会随着一个或多个数值型的自变量(independent variable)(预测变量)而扭转的。咱们可能构建的最简略的模型之一就是线性模型,咱们能够假如因变量和自变量间是线性的关系。回归分办法可用于预测数值型数据以及量化预测后果与其预测变量之间关系的大小及强度。本文将介绍如何将回归办法利用到你本人的数据中,次要介绍学习内容:

用线性回归办法来拟合数据方程的根本统计准则和它们如何形容数据元素之间的关系。

如何应用 R 筹备数据进行回归剖析,定义一个线性方程并预计回归模型。

案例 1:体脂数据回归剖析


data=read.table("bodyfat.txt",header=F)

给变量名赋值

 
colnames(data)=c("Density determined from underwater weighing","Percent body fat from Siri's (1956) equation","Age","Weight","

数据相干图

回归剖析

因为 P <0.05,于是在 α =0.05 程度下,本例的回归系数有统计学意义,体重和体脂存在回归关系。

数据拟合图

置信区间

残差剖析

par(mfrow=c(2,2))  
plot(lmmod)

逐步回归

stepmod=step(lmmod,direction="both",trace=T);

因为 P <0.05,于是在 α =0.05 程度下,本例的回归系数有统计学意义,体重、年龄、胸围和体脂存在回归关系。

案例 2:公交绿色出行与寰球变暖回归剖析

查看数据

head(data)

查看数据结构

查看数据详情

删除缺失数据

data[data== "<NA>"]=NA  
datanew=na.omit(data)

相干剖析

corrgram(datanew[,c("反对水平.1-7","净化重大"  ,"区域主因" ,"公交出行" , "

应用 cor 函数来查看不同变量之间的相关系数

## 查看反对水平和不同变量之间的相关系数  
cormat[1,]

## 反对水平.1-7     净化重大     区域主因     公交出行     寰球变暖  
##  1.000000000  0.057896120  0.007793092  0.195963899  0.118643706  
##     工业变暖     尾气变暖     公交理解     公交称心     集体影响  
##  0.038408531  0.265162650 -0.028947130  0.061299236  0.561345590  
##     无效治堵     无效减排     通勤形式     免费区域     免费时段  
##  0.647623352  0.582528538 -0.067935998 -0.025646569 -0.086475704  
##     支出用处  
##  0.064924787

cor.test(datanew$` 反对水平.1-7`,datanew$ 公交出行)

##  
##  Pearson's product-moment correlation  
##  
## data:  datanew$` 反对水平.1-7` and datanew$ 公交出行  
## t = 5.5525, df = 772, p-value = 3.875e-08  
## alternative hypothesis: true correlation is not equal to 0  
## 95 percent confidence interval:  
##  0.1272518 0.2628041  
## sample estimates:  
##       cor  
## 0.1959639

cor.test(datanew$` 反对水平.1-7`,datanew$ 寰球变暖)

##  
##  Pearson's product-moment correlation  
##  
## data:  datanew$` 反对水平.1-7` and datanew$ 寰球变暖  
## t = 3.32, df = 772, p-value = 0.0009426  
## alternative hypothesis: true correlation is not equal to 0  
## 95 percent confidence interval:  
##  0.04858049 0.18754507  
## sample estimates:  
##       cor  
## 0.1186437

建设多元线性 ======================= 因变量为 反对水平.1-7

## 取得训练集  
   
  
train <- sample(1:nrow(datanew), nrow(datanew)*0.8)  
datanew.train <- datanew[train,]

进行多元线性模型并进行剖析 —–P 值<0.1 的和 F - K 列

因为 P <0.05,于是在 α =0.05 程度下,本例的回归系数有统计学意义,净化重大、无效减排、免费时段、集体影响和无效治堵和反对水平存在回归关系。

回归后果

置信区间与预测区间:

置信区间是给定自变量值后,由回归方程失去的的预测值(实际上是的平均值)的置信区间;预测区间是理论值的置信区间,在这里称为预测区间。

残差剖析:

残差剖析能够对回归模型的假如条件即随机误差项是否独立同散布进行测验,同时还能够找出离群点。命令语句为 plot(lm.1),显示后果如下

plot(lmmod)

最受欢迎的见解

1.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e7%bb%98%e5%88%b6%e7%94%…)R 语言多元 Logistic 逻辑回归 利用案例

2.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e7%94%9f%e5%ad%98%e5%88%…)面板平滑转移回归 (PSTR) 剖析案例实现

3.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e5%a6%82%e4%bd%95%e5%9c%…)matlab 中的偏最小二乘回归(PLSR)和主成分回归(PCR)

4.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e4%b8%ad%e4%bd%bf%e7%94%…)R 语言泊松 Poisson 回归模型剖析案例

5.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e7%94%9f%e5%ad%98%e5%88%…)R 语言回归中的 Hosmer-Lemeshow 拟合优度测验

6.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80ggplot2%e8%af%af%e5%b7%ae…)r 语言中对 LASSO 回归,Ridge 岭回归和 Elastic Net 模型实现

7.[](http://tecdat.cn/r-%e8%af%ad%e8%a8%80%e7%bb%98%e5%88%b6%e5%8a…)在 R 语言中实现 Logistic 逻辑回归

8.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e5%a6%82%e4%bd%95%e6%89%…)python 用线性回归预测股票价格

9.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e4%b8%ad%e7%9a%84%e7%94%…)R 语言如何在生存剖析与 Cox 回归中计算 IDI,NRI 指标

退出移动版