原文链接：http://tecdat.cn/?p=22448

===

明天，咱们将看下bagging 技术外面的启发式算法。

通常，bagging 与树无关，用于生成森林。但实际上，任何类型的模型都有可能应用bagging 。回顾一下，bagging意味着 "boostrap聚合"。因而，思考一个模型m：X→Y。让示意从样本中失去的m的预计

当初思考一些boostrap样本，，i是从{1,⋯,n}中随机抽取的。基于该样本，预计。而后抽出许多样本，思考取得的估计值的一致性，应用少数规定，或应用概率的平均值（如果思考概率主义模型）。因而

Bagging逻辑回归

考虑一下逻辑回归的状况。为了产生一个bootstrap样本，天然要应用下面形容的技术。即随机抽取一对(yi,xi)，平均地（概率为）替换。这里考虑一下小数据集。对于bagging局部，应用以下代码

for(s in 1:1000){  df_s = df\[sample(1:n,size=n,replace=TRUE)  logit\[s\]= glm(y~., df_s, family=binomial

而后，咱们应该在这1000个模型上进行汇总，取得bagging的局部。

  unlist(lapply(1:1000,function(z) predict(logit\[z\],nnd))}

咱们当初对任何新的察看都有一个预测

vv = outer(vu,vu,(function(x,y) mean(pre(c(x,y)))contour(vu,vu,vv,levels = .5,add=TRUE)

Bagging逻辑回归

另一种可用于生成bootstrap样本的技术是保留所有的xi，但对其中的每一个，都（随机地）抽取一个y的值，其中有

因而

因而，当初Bagging算法的代码是

glm(y~x1+x2, df, family=binomial)for(s in 1:100)  y = rbinom(size=1,prob=predict(reg,type="response")  L\_logit\[s\] = glm(y~., df\_s, family=binomial)

bagging算法的agg局部放弃不变。在这里咱们取得

vv = outer(vu,vu,(function(x,y) mean(pre(c(x,y)))))contour(vu,vu,vv,levels = .5,add=TRUE)

当然，咱们能够应用该代码，查看预测取得咱们的样本中的察看。

在这里思考心肌梗塞数据。

数据

咱们应用心脏病数据，预测急诊病人的心肌梗死，蕴含变量：

心脏指数
心搏量指数
舒张压
肺动脉压
心室压力
肺阻力
是否存活

其中咱们有急诊室的察看后果，对于心肌梗塞，咱们想理解谁存活下来了，失去一个预测模型

reg = glm(as.factor(PRO)~., carde, family=binomial)for(s in 1:1000){  L\_logit\[s\] = glm(as.factor(PRO)~., my\_s, family=binomial)}unlist(lapply(1:100,predict(L_logit\[z\],newdata=d,type="response")}

对于第一个察看，通过咱们的1000个模仿数据集，以及咱们的1000个模型，咱们失去了以下死亡概率的预计。

v_x = p(x)hist(v_x,proba=TRUE,breaks=seq(,by.05),=",="",segments(mean(v\_x),0,mean(v\_x,5="=2)

因而，对于第一个察看，在78.8%的模型中，预测的概率高于50%，均匀概率实际上靠近75%。

或者，对于样本22，预测与第一个十分靠近。

histo(23)histo(11)

咱们在此察看到

Bagging决策树

Bagging是由Leo Breiman于1994年在Bagging Predictors中介绍的。如果说第一节形容了这个程序，那么第二节则介绍了 "Bagging分类树"。树对于解释来说是不错的，但大多数时候，它们是相当差的预测模型。Bagging的想法是为了进步分类树的准确性。
bagging 的想法是为了生成大量的树

for(i in 1:12)  set.seed(sed\[i\])idx = sample(1:n, size=n, replace=TRUE)cart =  rpart(PR~., md\[idx,\])

这个策略其实和以前一样。对于bootstrap局部，将树存储在一个列表中

for(s in 1:1000)idx = sample(1:n, size=n, replace=TRUE)  L_tree\[\[s\]\] = rpart(as.(PR)~.)

而对于汇总局部，只需取预测概率的平均值即可

p = function(x){  unlist(lapply(1:1000,function(z) predict(L_tree\[z\],newdata,)\[,2\])

因为在这个例子中，咱们无奈实现预测的可视化，让咱们在较小的数据集上运行同样的代码。

for(s in 1:1000){  idx = sample(1:n, size=n, replace=TRUE)  L_tree\[s\] = rpart(y~x1+x2,}  unlist(lapply(1:1000,function(z) predict(L_tree\[\[z\]\])outer(vu,vu,Vectorize(function(x,y) mean(p(c(x,y)))

从bagging到森林

在这里，咱们生成了很多树，但它并不是严格意义上的随机森林算法，正如1995年在《随机决策森林》中介绍的那样。实际上，区别在于决策树的创立。当咱们有一个节点时，看一下可能的宰割：咱们思考所有可能的变量，以及所有可能的阈值。这里的策略是在p中随机抽取k个变量（当然k<p，例如k=sqrt{p}）。这在高维度上是乏味的，因为在每次宰割时，咱们应该寻找所有的变量和所有的阈值，而这可能须要相当长的工夫（尤其是在bootstrap 程序中，指标是长出1000棵树）。

最受欢迎的见解

1.用机器学习辨认一直变动的股市情况—隐马尔科夫模型(HMM)的利用

2.R语言GARCH-DCC模型和DCC（MVT）建模预计

3.R语言实现 Copula 算法建模依赖性案例剖析报告

4.R语言COPULAS和金融工夫序列数据VaR剖析

5.R语言多元COPULA GARCH 模型工夫序列预测

6.用R语言实现神经网络预测股票实例

7.r语言预测稳定率的实现：ARCH模型与HAR-RV模型

8.R语言如何做马尔科夫转换模型markov switching model

9.matlab应用Copula仿真优化市场危险