关于数据挖掘:R语言代做编程辅导回归模型分析工资数据案例报告附答案

全文链接：http://tecdat.cn/?p=30953

读取工资数据
在excel中选取数据，复制。在R中读取数据

data=read.table("clipboard",header=T)#在excel中选取数据，复制。在R中读取数据

apply(data,2,mean)#计算每个变量的平均值

 obs  lnWAGE     EDU   WYEAR   SCORE  EDU_MO  EDU_FA

25.5000  2.5380 13.0200 12.6400  0.0574 11.5000 12.1000

 apply(data,2,sd) #求每个变量的标准偏差

 obs     lnWAGE        EDU      WYEAR      SCORE     EDU_MO     EDU_FA

14.5773797  0.4979632  2.0151467  3.5956890  0.8921353  3.1184114  4.7734384

cor(data)#求不同变量的相关系数

能够看到wage和edu wyear score 有肯定的相干关系

plot(data)#求不同变量之间的分布图

能够求出不同变量之间两两的分布图

lm=lm(lnWAGE~EDU+WYEAR+SCORE+EDU_MO+EDU_FA,data=data)#对工资进行多元线性剖析

Summary(lm)#对后果进行剖析

能够看到各个自变量与因变量之间的线性关系并不显著，只有EDU变量达到了0.01的显著性程度，因而对模型进行批改，应用逐步回归法对模型进行批改。

lm2=step(lm,direction="forward")#应用向前逐步回归

summary(lm2)

能够看到，因为向前逐步回归的运算过程是一一缩小变量，从该方向进行回归使模型没有失去晋升，办法对模型并没有很好的改良。因而对模型进行批改，应用向前向后逐步回归。

从后果来看，该模型的自变量与因变量之间具备叫显著的线性关系，其中EDU变量达到了0.001的显著程度。R-square值也失去了肯定的进步，代表模型的拟合度失去晋升。而后，对本模型进行均匀分布检测。

`plot(lm3)#查看回归拟合后果样本点的散布状况
`

1.一般残差与拟合值的残差图

从上图看到。样本残差值平均的散布在两头0的水平线四周，阐明样本是均匀分布的。

正态qq残差图能够看到规范残差基本上散布在斜线四周，阐明样本点满足正态分布。

上图阐明规范残差也平均地散布在两头水平线四周。

上图从cook统计量的大小咱们能够看到有哪些值可能是利群点，其中包含 28 ，39 ，50号样本.

`outer=which(residuals(lm2)>=2*var(residuals(lm2)))`#找出模型中残差值大于2倍方差的异样值（即散布不平均的样本点），将其排除

data=data[-outer,]

而后进行White检测。

library(lmtest)

wt=bptest(lm3, ~ EDU * WYEAR + I(EDU^2) + I(WYEAR^2),  data = data)

从white检测后果来看，p值显著大于0.05，即承受原假如H0：随机误差具备雷同的方差。因而。线性回归模型具备良好的统计性质。

对修改后的数据从新进行线性回归

lm5=step(lm4,data=data,direction="both")

summary(lm5)

能够看到从新拟合后的模型的R-square值得到了肯定的晋升，阐明模型的拟合度提高。