关于数据库:技术分享丨集成学习之Bagging思想

咱们在生活中做出的许多决定都是基于其他人的意见，而通常状况下由一群人做出的决策比由该群体中的任何一个成员做出的决策会产生更好的后果，这被称为群体的智慧。集成学习（Ensemble Learning）相似于这种思维，集成学习联合了来自多个模型的预测，旨在比集成该学习器的任何成员体现得更好，从而晋升预测性能（模型的准确率），预测性能也是许多分类和回归问题的最重要的关注点。

集成学习（Ensemble Learning）是将若干个弱分类器（也能够是回归器）组合从而产生一个新的分类器。（弱分类器是指分类准确率略好于随机猜测的分类器，即error rate < 0.5)。

集成机器学习波及联合来自多个纯熟模型的预测，该算法的胜利在于保障弱分类器的多样性。而且集成不稳固的算法也可能失去一个比拟显著的性能晋升。集成学习是一种思维。当预测建模我的项目的最佳性能是最重要的后果时，集成学习办法很受欢迎，通常是首选技术。

为什么要应用集成学习

(1) 性能更好：与任何单个模型的奉献相比，集成能够做出更好的预测并取得更好的性能；
(2) 鲁棒性更强：集成缩小了预测和模型性能的流传或扩散，平滑了模型的预期性能。
(3) 更加正当的边界：弱分类器间存在肯定差异性，导致分类的边界不同。多个弱分类器合并后，就能够失去更加正当的边界，缩小整体的错误率，实现更好的成果；
(4) 适应不同样本体量：对于样本的过大或者过小，可别离进行划分和有放回的操作产生不同的样本子集，再应用样本子集训练不同的分类器，最初进行合并；
(5) 易于交融：对于多个异构特色数据集，很难进行交融，能够对每个数据集进行建模，再进行模型交融。

机器学习建模的偏差和方差

机器学习模型产生的谬误通常用两个属性来形容：偏差和方差。

偏差是掂量模型能够捕捉输出和输入之间的映射函数的靠近水平。它捕捉了模型的刚性：模型对输出和输入之间映射的函数模式的假如强度。

模型的方差是模型在拟合不同训练数据时的性能变动量。它捕捉数据的细节对模型的影响。

现实状况下，咱们更喜爱低偏差和低方差的模型，事实上，这也是针对给定的预测建模问题利用机器学习的指标。模型性能的偏差和方差是相干的，缩小偏差通常能够通过减少方差来轻松实现。相同，通过减少偏差能够很容易地缩小方差。

与单个预测模型相比，集成用在预测建模问题上实现更好的预测性能。实现这一点的形式能够了解为模型通过增加偏差来缩小预测误差的方差重量（即衡量偏差-方差的状况下）。

集成学习之Bagging思维

Bagging又称自举汇聚法（Bootstrap Aggregating），波及在同一数据集的不同样本上拟合许多学习器并对预测进行均匀，通过扭转训练数据来寻找多样化的集成成员。

Bagging思维就是在原始数据集上通过有放回的抽样，从新抉择出N个新数据集来别离训练N个分类器的集成技术。模型训练数据中容许存在反复数据。

应用Bagging办法训练进去的模型在预测新样本分类的时候，会应用少数投票或者取平均值的策略来统计最终的分类后果。

基于Bagging的弱学习器（分类器/回归器）能够是根本的算法模型，如Linear、Ridge、Lasso、Logistic、Softmax、ID3、C4.5、CART、SVM、KNN、Naive Bayes等。

随机森林 (Random Forest)

随机森林算法原理

随机森林是在Bagging策略的根底上进行批改后的一种算法，办法如下：
(1) 应用Bootstrap策略从样本集中进行数据采样；
(2) 从所有特色中随机抉择K个特色，构建失常决策树；
(3) 反复1，2屡次，构建多棵决策树；
(4) 集成多棵决策树，造成随机森林，通过投票表决或取平均值对数据进行决策。

随机森林OOB Error

在随机森林中能够发现Bootstrap采样每次约有1/3的样本不会呈现在Bootstrap所采样的样本汇合中，当然也没有加入决策树的建设，而这部分数据称之为袋外数据OOB（out of bag),它能够用于取代测试集误差预计办法。

对于曾经生成的随机森林，用袋外数据测试其性能，假如袋外数据总数为O，用这O个袋外数据作为输出，带进之前曾经生成的随机森林分类器，分类器会给出O个数据相应的分类，因为这O条数据的类型是已知的，则用正确的分类与随机森林分类器的后果进行比拟，统计随机森林分类器分类谬误的数目，设为X，则袋外数据误差大小为X/O。

长处：这曾经通过证实是无偏预计的，所以在随机森林算法中不须要再进行穿插验证或者独自的测试集来获取测试集误差的无偏预计。

毛病：当数据量较小时，Bootstrap采样产生的数据集扭转了初始数据集的散布，这会引入预计偏差。

随机森林算法变种

RF算法在理论利用中具备比拟好的个性，利用也比拟宽泛，次要利用在：分类、归回、特色转换、异样点检测等。以下为常见的RF变种算法：
·Extra Trees (ET)
·Totally Random Trees Embedding (TRTE)
·Isolation Forest (IForest)
Extra Trees (ET)

Extra-Trees（Extremely randomized trees，极其随机树）是由Pierre Geurts等人于2006年提出。是RF的一个变种，原理根本和RF一样。但该算法与随机森林有两点次要的区别：

(1) 随机森林会应用Bootstrap进行随机采样，作为子决策树的训练集，利用的是Bagging模型；而ET应用所有的训练样本对每棵子树进行训练，也就是ET的每个子决策树采纳原始样本训练；
(2) 随机森林在抉择划分特色点的时候会和传统决策树一样（基于信息增益、信息增益率、基尼系数、均方差等），而ET是齐全随机的抉择划分特色来划分决策树。

对于某棵决策树，因为它的最佳划分特色是随机抉择的，因而它的预测后果往往是不精确的，然而多棵决策树组合在一起，就能够达到很好的预测成果。

当ET构建实现，咱们也能够利用全副训练样本失去该ET的误差。因为只管构建决策树和预测利用的都是同一个训练样本集，但因为最佳划分属性是随机抉择的，所以咱们依然会失去齐全不同的预测后果，用该预测后果就能够与样本的实在响应值比拟，从而失去预测误差。如果与随机森林相类比的话，在ET中，全副训练样本都是OOB样本，所以计算ET的预测误差，也就是计算这个OOB误差。

因为Extra Trees是随机抉择特征值的划分点，会导致决策树的规模个别大于RF所生成的决策树。也就是说Extra Trees模型的方差绝对于RF进一步缩小。在某些状况下，ET具备比随机森林更强的泛化能力。

Totally Random Trees Embedding (TRTE)

TRTE是一种非监督学习的数据转化形式。它将低维的数据映射到高维，从而让映射到高维的数据更好的利用于分类回归模型。

TRTE算法的转换过程相似RF算法的办法，建设T个决策树来拟合数据。当决策树构建实现后，数据集里的每个数据在T个决策子树中叶子节点的地位就定下来了，将地位信息转换为向量就实现了特色转换操作。

例如，有3棵决策树，每棵决策树有5个叶子节点，某个数据特色x划分到第一个决策树的第3个叶子节点，第二个决策树的第1个叶子节点，第三个决策树的第5个叶子节点。则x映射后的特色编码为（0,0,1,0,0 1,0,0,0,0 0,0,0,0,1),有15维的高维特色。特色映射到高维之后，就能够进一步进行监督学习。

Isolation Forest (IForest)

IForest是一种异样点检测算法，应用相似RF的形式来检测异样点；IForest算法和RF算法的区别在于：
(1) 在随机采样的过程中，个别只须要大量数据即可；
(2) 在进行决策树构建过程中，IForest算法会随机抉择一个划分特色，并对划分特色随机抉择一个划分阈值；
(3) IForest算法构建的决策树个别深度max_depth是比拟小的。

IForest的目标是异样点检测，所以只有可能辨别异样数据即可，不须要大量数据；另外在异样点检测的过程中，个别不须要太大规模的决策树。

对于异样点的判断，则是将测试样本x拟合到T棵决策树上。计算在每棵树上该样本的叶子结点的深度ht(x)。从而计算出均匀深度h(x)；而后就能够应用下列公式计算样本点x的异样概率值，p(s,m)的取值范畴为[0,1]，越靠近于1，则是异样点的概率越大。

m为样本个数，ξ 为欧拉常数

随机森林优缺点总结

本期AI小课堂咱们一起理解了Bagging思维及其原理，以及基于Bagging的随机森林相干常识。最初，让咱们一起总结下随机森林的优缺点：

长处

(1) 训练能够并行化，对于大规模样本的训练具备速度的劣势；
(2) 因为进行随机抉择决策树划分特色列表，这样在样本维度比拟高的时候，依然具备比拟好的训练性能；
(3) 因为存在随机抽样，训练进去的模型方差小，泛化能力强；
(4) 实现简略；
(5) 对于局部特色缺失不敏感；
(6) 能够掂量特色的重要性。

毛病

(1) 在某些噪声比拟大的特色上，易过拟合；
(2) 取值比拟多的划分特色对RF的决策会产生更大的影响，从而有可能影响模型的成果。

关于数据库:技术分享丨集成学习之Bagging思想

为什么要应用集成学习

机器学习建模的偏差和方差

集成学习之Bagging思维

随机森林 (Random Forest)

随机森林算法原理

随机森林OOB Error

随机森林算法变种

Totally Random Trees Embedding (TRTE)

Isolation Forest (IForest)

随机森林优缺点总结

长处

毛病

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于数据库:技术分享丨集成学习之Bagging思想

为什么要应用集成学习

机器学习建模的偏差和方差

集成学习之Bagging思维

随机森林 (Random Forest)

随机森林算法原理

随机森林OOB Error

随机森林算法变种

Totally Random Trees Embedding (TRTE)

Isolation Forest (IForest)

随机森林优缺点总结

长处

毛病

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复