原文链接 http://tecdat.cn/?p=14850
回归剖析是一种非常常见的数据分析办法, 通过观测数据确定变量间的互相关系. 传统回归剖析以点数据为钻研对象, 预测后果也是点数据, 而实在数据往往在肯定范畴内变动的. 基于置信度能够造成置信区间, 肯定水平补救了预测值为单点的有余, 但将点数据作为钻研对象, 以点带表某范畴内的所有数据, 往往存在信息失落的问题.
区间回归剖析是一种以区间数为钻研对象的数据分析办法. 区间数能反映出数据的变动范畴, 更合乎现实情况. 区间型符号数据是区间数的一种, 通过 ” 数据打包 ” 造成, 因而除具备区间端点信息外, 还具备区间外部散点信息.
本文将做一个简短的解释阐明如何应用 R 在有区间的状况下提取高低限值。让咱们从生成数据开始,
X=rnorm(n)
Y=2+X+rnorm(n,sd = .3)
假如当初咱们不再察看变量 x,而只是察看一个类(咱们将创立八个类,每个类有八分之一的察看值)
Q=quantile(x = X,(0:8)/8)
Q\[1\]=Q\[1\]-.00001
Xcut=cut(X,breaks = Q)
例如,对于第一个值,咱们有
as.character(Xcut\[1\])
\[1\] "(-0.626,-0.348\]"
要提取无关这些边界的信息,咱们能够应用上面的小代码,该代码返回区间的上限,下限和中值
lower = c(lower1,lower2)
lower=lower\[!is.na(lower)\]
upper = c(upper1,upper2)
upper=upper\[!is.na(upper)\]
mid = (lower+upper)/2
return(c(lower=lower,mid=mid,upper=upper)
extrai(Xcut\[1\])
lower mid upper
-0.626 -0.487 -0.348
能够看到,咱们能够在数据库中创立三个变量(具备上限,下限和中值信息)
B$lower=B2\[1,\]
B$mid =B2\[2,\]
B$upper=B2\[3,\]
咱们能够比拟 4 个回归(i)咱们对 8 个类别进行回归,即咱们的 8 个因子(ii)咱们对区间的上限进行回归,(iii)对区间的“平均值”值进行回归(iv)对下限
regF=lm(Y~X,data=B)
regL=lm(Y~lower,data=B)
regM=lm(Y~mid,data=B)
regU=lm(Y~upper,data=B)
咱们能够将预测与咱们的四个模型进行比拟
更进一步,咱们还能够比拟模型的 AIC,
AIC(regF)
\[1\] 204.5653
AIC(regM)
\[1\] 201.1201
AIC(regL)
\[1\] 266.5246
AIC(regU)
\[1\] 255.0687
如果上限和上限值的应用不是确定性的,则在此处应留神,应用区间的平均值会比应用 8 个因子略好。
参考文献
1. 用 SPSS 预计 HLM 档次线性模型模型
2.R 语言线性判别分析(LDA),二次判别分析(QDA)和正则判别分析(RDA)
3. 基于 R 语言的 lmer 混合线性回归模型
4.R 语言 Gibbs 抽样的贝叶斯简略线性回归仿真剖析
5. 在 r 语言中应用 GAM(狭义相加模型)进行电力负荷工夫序列剖析
6. 应用 SAS,Stata,HLM,R,SPSS 和 Mplus 的分层线性模型 HLM
7.R 语言中的岭回归、套索回归、主成分回归:线性模型抉择和正则化
8.R 语言用线性回归模型预测空气质量臭氧数据
9.R 语言分层线性模型案例