全文链接:http://tecdat.cn/?p=30953
读取工资数据
在 excel 中选取数据,复制。在 R 中读取数据
data=read.table("clipboard",header=T)# 在 excel 中选取数据,复制。在 R 中读取数据
apply(data,2,mean)# 计算每个变量的平均值
obs lnWAGE EDU WYEAR SCORE EDU_MO EDU_FA
25.5000 2.5380 13.0200 12.6400 0.0574 11.5000 12.1000
apply(data,2,sd) #求每个变量的标准偏差
obs lnWAGE EDU WYEAR SCORE EDU_MO EDU_FA
14.5773797 0.4979632 2.0151467 3.5956890 0.8921353 3.1184114 4.7734384
cor(data)# 求不同变量的相关系数
能够看到 wage 和 edu wyear score 有肯定的相干关系
plot(data)# 求不同变量之间的分布图
能够求出不同变量之间两两的分布图
lm=lm(lnWAGE~EDU+WYEAR+SCORE+EDU_MO+EDU_FA,data=data)# 对工资进行多元线性剖析
Summary(lm)# 对后果进行剖析
能够看到各个自变量与因变量之间的线性关系并不显著,只有 EDU 变量达到了 0.01 的显著性程度,因而对模型进行批改,应用逐步回归法对模型进行批改。
lm2=step(lm,direction="forward")# 应用向前逐步回归
summary(lm2)
能够看到,因为向前逐步回归的运算过程是一一缩小变量,从该方向进行回归使模型没有失去晋升,办法对模型并没有很好的改良。因而对模型进行批改,应用向前向后逐步回归。
从后果来看,该模型的自变量与因变量之间具备叫显著的线性关系,其中 EDU 变量达到了 0.001 的显著程度。R-square 值也失去了肯定的进步,代表模型的拟合度失去晋升。而后,对本模型进行均匀分布检测。
`plot(lm3)# 查看回归拟合后果 样本点的散布状况
`
1. 一般残差与拟合值的残差图
- 正态 QQ 的残差图
- 标准化残差开方与拟合值的残差图
- cook 统计量的残差图
从上图看到。样本残差值平均的散布在两头 0 的水平线四周,阐明样本是均匀分布的。
正态 qq 残差图能够看到规范残差基本上散布在斜线四周,阐明样本点满足正态分布。
上图阐明规范残差也平均地散布在两头水平线四周。
上图从 cook 统计量的大小咱们能够看到有哪些值可能是利群点,其中包含 28,39,50 号样本.
`outer=which(residuals(lm2)>=2*var(residuals(lm2)))`# 找出模型中残差值大于 2 倍方差的异样值(即散布不平均的样本点),将其排除
data=data[-outer,]
而后进行 White 检测。
White test
library(lmtest)
wt=bptest(lm3, ~ EDU * WYEAR + I(EDU^2) + I(WYEAR^2), data = data)
从 white 检测后果来看,p 值显著大于 0.05,即承受原假如 H0:随机误差具备雷同的方差。因而。线性回归模型具备良好的统计性质。
对修改后的数据从新进行线性回归
lm5=step(lm4,data=data,direction="both")
summary(lm5)
能够看到从新拟合后的模型的 R -square 值得到了肯定的晋升,阐明模型的拟合度提高。