关于算法:R语言区间数据回归分析

原文链接http://tecdat.cn/?p=14850

回归剖析是一种非常常见的数据分析办法,通过观测数据确定变量间的互相关系.传统回归剖析以点数据为钻研对象,预测后果也是点数据,而实在数据往往在肯定范畴内变动的.基于置信度能够造成置信区间,肯定水平补救了预测值为单点的有余,但将点数据作为钻研对象,以点带表某范畴内的所有数据,往往存在信息失落的问题.

区间回归剖析是一种以区间数为钻研对象的数据分析办法.区间数能反映出数据的变动范畴,更合乎现实情况.区间型符号数据是区间数的一种,通过"数据打包"造成,因而除具备区间端点信息外,还具备区间外部散点信息.

本文将做一个简短的解释阐明如何应用R在有区间的状况下提取高低限值。让咱们从生成数据开始，

X=rnorm(n)Y=2+X+rnorm(n,sd = .3)

假如当初咱们不再察看变量x，而只是察看一个类（咱们将创立八个类，每个类有八分之一的察看值）

Q=quantile(x = X,(0:8)/8)Q\[1\]=Q\[1\]-.00001Xcut=cut(X,breaks = Q)

例如，对于第一个值，咱们有

as.character(Xcut\[1\])\[1\] "(-0.626,-0.348\]"

要提取无关这些边界的信息，咱们能够应用上面的小代码，该代码返回区间的上限，下限和中值

lower = c(lower1,lower2)lower=lower\[!is.na(lower)\]upper = c(upper1,upper2)upper=upper\[!is.na(upper)\]mid = (lower+upper)/2return(c(lower=lower,mid=mid,upper=upper)

extrai(Xcut\[1\])lower mid upper -0.626 -0.487 -0.348

能够看到，咱们能够在数据库中创立三个变量（具备上限，下限和中值信息）

B$lower=B2\[1,\]B$mid =B2\[2,\]B$upper=B2\[3,\]

咱们能够比拟4个回归（i）咱们对8个类别进行回归，即咱们的8个因子（ii）咱们对区间的上限进行回归，（iii）对区间的“平均值”值进行回归（iv）对下限

regF=lm(Y~X,data=B)regL=lm(Y~lower,data=B)regM=lm(Y~mid,data=B)regU=lm(Y~upper,data=B)

咱们能够将预测与咱们的四个模型进行比拟

更进一步，咱们还能够比拟模型的AIC，

AIC(regF)\[1\] 204.5653AIC(regM)\[1\] 201.1201AIC(regL)\[1\] 266.5246AIC(regU)\[1\] 255.0687

如果上限和上限值的应用不是确定性的，则在此处应留神，应用区间的平均值会比应用8个因子略好。

参考文献

1.用SPSS预计HLM档次线性模型模型

2.R语言线性判别分析（LDA），二次判别分析（QDA）和正则判别分析（RDA）

3.基于R语言的lmer混合线性回归模型

4.R语言Gibbs抽样的贝叶斯简略线性回归仿真剖析

5.在r语言中应用GAM（狭义相加模型）进行电力负荷工夫序列剖析

6.应用SAS，Stata，HLM，R，SPSS和Mplus的分层线性模型HLM

7.R语言中的岭回归、套索回归、主成分回归：线性模型抉择和正则化

8.R语言用线性回归模型预测空气质量臭氧数据

9.R语言分层线性模型案例