关于数据挖掘:R语言使用虚拟变量Dummy-Variables-回归分析工资影响因素附代码数据

6次阅读

共计 2144 个字符,预计需要花费 6 分钟才能阅读完成。

全文链接:http://tecdat.cn/?p=23170 

最近咱们被客户要求撰写对于虚构变量回归的钻研报告,包含一些图形和统计输入。

在本文中,本文与以下两个问题无关。你应该如何增加虚构变量?你应该如何解释后果

简介

如果应用一个例子,咱们可能会更容易了解这些问题。

数据

假如咱们想钻研工资是如何由教育、教训和某人是否负责治理职务决定的。假如

  • 每个人都从年薪 4 万开始。
  • 实际出真知。每减少一年的教训,工资就减少 5 千。
  • 你学得越多,你的支出就越多。高中、大学和博士的年薪增长别离为 0、10k 和 20k。
  • 海面平静时,任何人都能够掌舵。对于负责治理职位的人,要多付 20k。
  • 天生就是平凡的领导者。对于那些只上过高中却负责治理职位的人,多给他们 3 万。
  • 随机因素会影响工资,平均值为 0,标准差为 5 千。

上面是局部数据和摘要。

绘制数据

有和没有治理职位的人的工资和教育之间的关系。

 jitter(alpha=0.25,color=colpla[4])+
  facet_wrap(~ 治理职位)+
boxplot(color=colpla[2])

有治理职位和没有治理职位的人的工资和教训之间的关系,以教育为根底。


点击题目查阅往期内容

线性回归和工夫序列剖析北京房价影响因素可视化案例

左右滑动查看更多

01

02

03

04

 stat_smooth(method = "lm")+
  facet_wrap(~ 治理职位)

回归剖析

疏忽教育和治理之间的相互作用

咱们只将工资与教育、教训和治理职位进行回归。其后果是 

尽管这些参数在统计学上是有意义的,但这并没有任何意义。与高中相比,大学学历怎么可能使你的工资缩小 5105?

正确的模型应该包含教育和治理职位的交互项。

增加教育和治理之间的交互作用

当初,让咱们增加教育和治理之间的交互项,看看会产生什么。

对后果的解释

当初的后果是有意义的。

  • 截距为 40137(靠近 4 万)是基本保障支出。
  • 教育的基数是高中。与高中相比,大学教育能够均匀减少 9833 元(靠近 1 万)的工资。与高中相比,博士教育能够减少 19895 元(靠近 2 万)的工资。
  • 多一年的工作教训能够使工资减少 4983 元(靠近 5 千)。
  • 负责治理职位的高中毕业生有 49695 元的溢价(靠近 5 万)。这些人是天生的领导者。
  • 与负责治理职位的高中毕业生相比,负责治理职位的大学毕业生的溢价缩小了 29965.51 至 29571(49735.74-29965.51,靠近 2 万)。
  • 与高中毕业生负责治理职位相比,博士毕业生负责治理职位的溢价缩小了 29501 至 19952.87(靠近 2 万)。另外,你能够说治理职位产生了 20K 的根本溢价,而不思考教育程度。除了这 2 万外,高中毕业生还能失去 3 万,使总溢价减少到 5 万。

测验是否违反了模型的假如

为了使咱们的模型无效,咱们须要满足一些假如。

  • 误差应该遵循正态分布

正态 Q - Q 图看起来是线性的。所以这个假如失去了满足。

  • 没有自相干

D- W 测验值为 1.8878,靠近 2,因而,这个假如也满足。

  • 没有多重共线性

预测变量 edu、exp 和 mngt 的 VIF 值均小于 5,因而满足这一假如。

用数据的子集进行回归

你能够通过用一个数据子集运行模型来取得同样的后果。你能够将数据按教育水平分成子集,并在每个子集上运行回归模型,而不是应用一个教育的虚构变量。

如果只用高中生的数据,你会失去这样的后果。

sub<-d %>% 
+   filter(教育 =="高中")

仅凭大学生的数据,你就能失去这个后果。

只用来自博士生的数据,你会失去这个后果。

![图片]()

点击文末 “浏览原文”

获取全文残缺代码数据资料。

本文选自《R 语言应用虚构变量(Dummy Variables) 回归剖析工资影响因素》。

点击题目查阅往期内容

Python 用 RNN 神经网络:LSTM、GRU、回归和 ARIMA 对 COVID19 新冠疫情人数工夫序列预测
非线性回归 nls 摸索剖析河流阶段性流量数据和评级曲线、流量预测可视化
非线性回归 beta 系数估算股票市场的危险剖析亚马逊股票和构建投资组合
R 语言因子实验设计 nlme 拟合非线性混合模型剖析有机农业施氮程度
R 语言非线性混合效应 NLME 模型 (固定效应 & 随机效应) 反抗哮喘药物茶碱动力学钻研
Python 用 T -SNE 非线性降维技术拟合和可视化高维数据 iris 鸢尾花、MNIST 数据
R 语言 nlme、nlmer、lme4 用(非)线性混合模型 non-linear mixed model 剖析藻类数据实例
Python 中的多项式回归拟合非线性关系实例
应用 R 语言进行多项式回归、非线性回归模型曲线拟合
R 语言多项式回归拟合非线性关系
R 语言里的非线性模型:多项式回归、部分样条、平滑样条、狭义相加模型 GAM 剖析
R 语言自适应 LASSO 多项式回归、二元逻辑回归和岭回归利用剖析
R 语言 ISLR 工资数据进行多项式回归和样条回归剖析
R 语言中的多项式回归、部分回归、核平滑和平滑样条回归模型
R 语言多项式线性模型:最大似然预计二次曲线
R 语言狭义线性模型 GLM、多项式回归和狭义可加模型 GAM 预测泰坦尼克号幸存者
R 语言中的多项式回归、B 样条曲线 (B-spline Curves) 回归
R 语言用多项式回归和 ARIMA 模型预测电力负荷工夫序列数据
R 语言机器学习实战之多项式回归
R 语言 ISLR 工资数据进行多项式回归和样条回归剖析

正文完
 0