共计 1133 个字符,预计需要花费 3 分钟才能阅读完成。
原文链接:http://tecdat.cn/?p=26932
在进行穿插验证之前,很天然地说“我会预烧 50%(比如说)我的数据来训练一个模型,而后用剩下的来拟合模型”。例如,咱们能够应用训练数据进行变量抉择(例如,在逻辑回归中应用一些逐渐过程),而后,一旦抉择了变量,就将模型拟合到残余的察看集上。一个天然的问题通常是“这真的重要吗?”。
为了可视化这个问题,思考我的(简略)数据集
应用心脏病数据,预测急诊病人的心肌梗死,蕴含变量:
- 心脏指数
- 心搏量指数
- 舒张压
- 肺动脉压
- 心室压力
- 肺阻力
- 是否存活
让咱们生成 100 个训练样本(咱们保留大概 50% 的察看值)。在它们中的每一个上,咱们应用逐渐过程,并保留残余变量的估计值(以及它们的标准差)
M=matrix(NA,100,ncol(MODE))
for(i in 1:100){reg=step(glm(PRO=="CS"~.,dataYE\[idx,\]))
而后,对于 7 个协变量(和常数),咱们能够查看拟合在训练样本上的模型中的系数值,以及拟合在验证样本上的模型上的值
idx=which(!is.na(M\[,j\]))
plot(M\[idx,j\],M2\[idx,j\])
abline
segments
例如,对于截距,咱们有以下
其中程度段是模型上拟合在训练样本上的参数的置信区间,垂直段是验证样本上的置信区间。蓝色局部示意某种一致性,而红色局部示意实际上,一个模型的系数为负,另一个模型为正。
咱们还能够可视化两个估计量的联结散布,
for(j in 1:8){fa = kde(x=Z, H=H)
image(fat$eots\[\[1\]\],
在这里,简直在对角线上,
这意味着两个样本的截距(或多或少)雷同。而后咱们能够查看其余参数。
在该变量上,它仿佛在训练数据集上很显著(不知何故,这与它在逐渐过程之后保留在模型中的事实统一)但在验证样本上不显著(或简直不显著)。
其余的则更加统一(有一些可能的异样值)
在下一个问题上,咱们在训练样本上又有显著性,但在验证样本上没有。
可能更乏味:
两者十分统一。
最受欢迎的见解
1.R 语言多元 Logistic 逻辑回归 利用案例
2. 面板平滑转移回归 (PSTR) 剖析案例实现剖析案例实现 ”)
3.matlab 中的偏最小二乘回归(PLSR)和主成分回归(PCR)
4.R 语言泊松 Poisson 回归模型剖析案例
5.R 语言混合效应逻辑回归 Logistic 模型剖析肺癌
6.r 语言中对 LASSO 回归,Ridge 岭回归和 Elastic Net 模型实现
7.R 语言逻辑回归、Naive Bayes 贝叶斯、决策树、随机森林算法预测心脏病
8.python 用线性回归预测股票价格
9.R 语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测