共计 1600 个字符,预计需要花费 4 分钟才能阅读完成。
原文链接:http://tecdat.cn/?p=23170
简介
本文与以下两个问题无关。你应该如何增加虚构变量?你应该如何解释后果?
如果应用一个例子,咱们可能会更容易了解这些问题。
数据
假如咱们想钻研工资是如何由教育、教训和某人是否负责治理职务决定的。假如
- 每个人都从年薪 4 万开始。
- 实际出真知。每减少一年的教训,工资就减少 5 千。
- 你学得越多,你的支出就越多。高中、大学和博士的年薪增长别离为 0、10k 和 20k。
- 海面平静时,任何人都能够掌舵。对于负责治理职位的人,要多付 20k。
- 天生就是平凡的领导者。对于那些只上过高中却负责治理职位的人,多给他们 3 万。
- 随机因素会影响工资,平均值为 0,标准差为 5 千。
上面是局部数据和摘要。
绘制数据
有和没有治理职位的人的工资和教育之间的关系。
jitter(alpha=0.25,color=colpla\[4\])+
facet_wrap(~ 治理职位)+
boxplot(color=colpla\[2\])
有治理职位和没有治理职位的人的工资和教训之间的关系,以教育为根底。
stat_smooth(method = "lm")+
facet_wrap(~ 治理职位)
回归剖析
疏忽教育和治理之间的相互作用
咱们只将工资与教育、教训和治理职位进行回归。其后果是
尽管这些参数在统计学上是有意义的,但这并没有任何意义。与高中相比,大学学历怎么可能使你的工资缩小 5105?
正确的模型应该包含教育和治理职位的交互项。
增加教育和治理之间的交互作用
当初,让咱们增加教育和治理之间的交互项,看看会产生什么。
对后果的解释
当初的后果是有意义的。
- 截距为 40137(靠近 4 万)是基本保障支出。
- 教育的基数是高中。与高中相比,大学教育能够均匀减少 9833 元(靠近 1 万)的工资。与高中相比,博士教育能够减少 19895 元(靠近 2 万)的工资。
- 多一年的工作教训能够使工资减少 4983 元(靠近 5 千)。
- 负责治理职位的高中毕业生有 49695 元的溢价(靠近 5 万)。这些人是天生的领导者。
- 与负责治理职位的高中毕业生相比,负责治理职位的大学毕业生的溢价缩小了 29965.51 至 29571(49735.74-29965.51,靠近 2 万)。
- 与高中毕业生负责治理职位相比,博士毕业生负责治理职位的溢价缩小了 29501 至 19952.87(靠近 2 万)。另外,你能够说治理职位产生了 20K 的根本溢价,而不思考教育程度。除了这 2 万外,高中毕业生还能失去 3 万,使总溢价减少到 5 万。
测验是否违反了模型的假如
为了使咱们的模型无效,咱们须要满足一些假如。
- 误差应该遵循正态分布
正态 Q - Q 图看起来是线性的。所以这个假如失去了满足。
- 没有自相干
D- W 测验值为 1.8878,靠近 2,因而,这个假如也满足。
- 没有多重共线性
预测变量 edu、exp 和 mngt 的 VIF 值均小于 5,因而满足这一假如。
用数据的子集进行回归
你能够通过用一个数据子集运行模型来取得同样的后果。你能够将数据按教育水平分成子集,并在每个子集上运行回归模型,而不是应用一个教育的虚构变量。
如果只用高中生的数据,你会失去这样的后果。
sub<-d %>%
+ filter(教育 =="高中")
仅凭大学生的数据,你就能失去这个后果。
只用来自博士生的数据,你会失去这个后果。
最受欢迎的见解
1.R 语言多元 Logistic 逻辑回归 利用案例
2. 面板平滑转移回归 (PSTR) 剖析案例实现
3.matlab 中的偏最小二乘回归(PLSR)和主成分回归(PCR)
4.R 语言泊松 Poisson 回归模型剖析案例
5. R 语言混合效应逻辑回归 Logistic 模型剖析肺癌
6.r 语言中对 LASSO 回归,Ridge 岭回归和 Elastic Net 模型实现
7. R 语言逻辑回归、Naive Bayes 贝叶斯、决策树、随机森林算法预测心脏病
8.python 用线性回归预测股票价格
9. R 语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测