乐趣区

关于数据库:技术分享丨集成学习之Bagging思想

咱们在生活中做出的许多决定都是基于其他人的意见,而通常状况下由一群人做出的决策比由该群体中的任何一个成员做出的决策会产生更好的后果,这被称为群体的智慧。集成学习(Ensemble Learning)相似于这种思维,集成学习联合了来自多个模型的预测,旨在比集成该学习器的任何成员体现得更好,从而晋升预测性能(模型的准确率),预测性能也是许多分类和回归问题的最重要的关注点。

集成学习(Ensemble Learning)是将若干个弱分类器(也能够是回归器)组合从而产生一个新的分类器。(弱分类器是指分类准确率略好于随机猜测的分类器,即 error rate < 0.5)。

集成机器学习波及联合来自多个纯熟模型的预测,该算法的胜利在于保障弱分类器的多样性。而且集成不稳固的算法也可能失去一个比拟显著的性能晋升。集成学习是一种思维。当预测建模我的项目的最佳性能是最重要的后果时,集成学习办法很受欢迎,通常是首选技术。

为什么要应用集成学习

(1) 性能更好:与任何单个模型的奉献相比,集成能够做出更好的预测并取得更好的性能;
(2) 鲁棒性更强:集成缩小了预测和模型性能的流传或扩散,平滑了模型的预期性能。
(3) 更加正当的边界:弱分类器间存在肯定差异性,导致分类的边界不同。多个弱分类器合并后,就能够失去更加正当的边界,缩小整体的错误率,实现更好的成果;
(4) 适应不同样本体量:对于样本的过大或者过小,可别离进行划分和有放回的操作产生不同的样本子集,再应用样本子集训练不同的分类器,最初进行合并;
(5) 易于交融:对于多个异构特色数据集,很难进行交融,能够对每个数据集进行建模,再进行模型交融。

机器学习建模的偏差和方差

机器学习模型产生的谬误通常用两个属性来形容:偏差和方差。

偏差是掂量模型能够捕捉输出和输入之间的映射函数的靠近水平。它捕捉了模型的刚性:模型对输出和输入之间映射的函数模式的假如强度。

模型的方差是模型在拟合不同训练数据时的性能变动量。它捕捉数据的细节对模型的影响。

现实状况下,咱们更喜爱低偏差和低方差的模型,事实上,这也是针对给定的预测建模问题利用机器学习的指标。模型性能的偏差和方差是相干的,缩小偏差通常能够通过减少方差来轻松实现。相同,通过减少偏差能够很容易地缩小方差。

与单个预测模型相比,集成用在预测建模问题上实现更好的预测性能。实现这一点的形式能够了解为模型通过增加偏差来缩小预测误差的方差重量(即衡量偏差 - 方差的状况下)。

集成学习之 Bagging 思维

Bagging 又称自举汇聚法(Bootstrap Aggregating),波及在同一数据集的不同样本上拟合许多学习器并对预测进行均匀,通过扭转训练数据来寻找多样化的集成成员。

Bagging 思维就是在原始数据集上通过有放回的抽样,从新抉择出 N 个新数据集来别离训练 N 个分类器的集成技术。模型训练数据中容许存在反复数据。

应用 Bagging 办法训练进去的模型在预测新样本分类的时候,会应用少数投票或者取平均值的策略来统计最终的分类后果。

基于 Bagging 的弱学习器(分类器 / 回归器)能够是根本的算法模型,如 Linear、Ridge、Lasso、Logistic、Softmax、ID3、C4.5、CART、SVM、KNN、Naive Bayes 等。


随机森林 (Random Forest)

随机森林算法原理

随机森林是在 Bagging 策略的根底上进行批改后的一种算法,办法如下:
(1) 应用 Bootstrap 策略从样本集中进行数据采样;
(2) 从所有特色中随机抉择 K 个特色,构建失常决策树;
(3) 反复 1,2 屡次,构建多棵决策树;
(4) 集成多棵决策树,造成随机森林,通过投票表决或取平均值对数据进行决策。

随机森林 OOB Error

在随机森林中能够发现 Bootstrap 采样每次约有 1 / 3 的样本不会呈现在 Bootstrap 所采样的样本汇合中,当然也没有加入决策树的建设,而这部分数据称之为袋外数据 OOB(out of bag), 它能够用于取代测试集误差预计办法。

对于曾经生成的随机森林,用袋外数据测试其性能,假如袋外数据总数为 O,用这 O 个袋外数据作为输出,带进之前曾经生成的随机森林分类器,分类器会给出 O 个数据相应的分类,因为这 O 条数据的类型是已知的,则用正确的分类与随机森林分类器的后果进行比拟,统计随机森林分类器分类谬误的数目,设为 X,则袋外数据误差大小为 X /O。

长处:这曾经通过证实是无偏预计的,所以在随机森林算法中不须要再进行穿插验证或者独自的测试集来获取测试集误差的无偏预计。

毛病:当数据量较小时,Bootstrap 采样产生的数据集扭转了初始数据集的散布,这会引入预计偏差。

随机森林算法变种

RF 算法在理论利用中具备比拟好的个性,利用也比拟宽泛,次要利用在:分类、归回、特色转换、异样点检测等。以下为常见的 RF 变种算法:
·Extra Trees (ET)
·Totally Random Trees Embedding (TRTE)
·Isolation Forest (IForest)
Extra Trees (ET)

Extra-Trees(Extremely randomized trees,极其随机树)是由 Pierre Geurts 等人于 2006 年提出。是 RF 的一个变种,原理根本和 RF 一样。但该算法与随机森林有两点次要的区别:

(1) 随机森林会应用 Bootstrap 进行随机采样,作为子决策树的训练集,利用的是 Bagging 模型;而 ET 应用所有的训练样本对每棵子树进行训练,也就是 ET 的每个子决策树采纳原始样本训练;
(2) 随机森林在抉择划分特色点的时候会和传统决策树一样(基于信息增益、信息增益率、基尼系数、均方差等),而 ET 是齐全随机的抉择划分特色来划分决策树。

对于某棵决策树,因为它的最佳划分特色是随机抉择的,因而它的预测后果往往是不精确的,然而多棵决策树组合在一起,就能够达到很好的预测成果。

当 ET 构建实现,咱们也能够利用全副训练样本失去该 ET 的误差。因为只管构建决策树和预测利用的都是同一个训练样本集,但因为最佳划分属性是随机抉择的,所以咱们依然会失去齐全不同的预测后果,用该预测后果就能够与样本的实在响应值比拟,从而失去预测误差。如果与随机森林相类比的话,在 ET 中,全副训练样本都是 OOB 样本,所以计算 ET 的预测误差,也就是计算这个 OOB 误差。

因为 Extra Trees 是随机抉择特征值的划分点,会导致决策树的规模个别大于 RF 所生成的决策树。也就是说 Extra Trees 模型的方差绝对于 RF 进一步缩小。在某些状况下,ET 具备比随机森林更强的泛化能力。

Totally Random Trees Embedding (TRTE)

TRTE 是一种非监督学习的数据转化形式。它将低维的数据映射到高维,从而让映射到高维的数据更好的利用于分类回归模型。

TRTE 算法的转换过程相似 RF 算法的办法,建设 T 个决策树来拟合数据。当决策树构建实现后,数据集里的每个数据在 T 个决策子树中叶子节点的地位就定下来了,将地位信息转换为向量就实现了特色转换操作。

例如,有 3 棵决策树,每棵决策树有 5 个叶子节点,某个数据特色 x 划分到第一个决策树的第 3 个叶子节点,第二个决策树的第 1 个叶子节点,第三个决策树的第 5 个叶子节点。则 x 映射后的特色编码为(0,0,1,0,0 1,0,0,0,0 0,0,0,0,1), 有 15 维的高维特色。特色映射到高维之后,就能够进一步进行监督学习。

Isolation Forest (IForest)

IForest 是一种异样点检测算法,应用相似 RF 的形式来检测异样点;IForest 算法和 RF 算法的区别在于:
(1) 在随机采样的过程中,个别只须要大量数据即可;
(2) 在进行决策树构建过程中,IForest 算法会随机抉择一个划分特色,并对划分特色随机抉择一个划分阈值;
(3) IForest 算法构建的决策树个别深度 max_depth 是比拟小的。

IForest 的目标是异样点检测,所以只有可能辨别异样数据即可,不须要大量数据;另外在异样点检测的过程中,个别不须要太大规模的决策树。

对于异样点的判断,则是将测试样本 x 拟合到 T 棵决策树上。计算在每棵树上该样本的叶子结点的深度 ht(x)。从而计算出均匀深度 h(x);而后就能够应用下列公式计算样本点 x 的异样概率值,p(s,m) 的取值范畴为 [0,1],越靠近于 1,则是异样点的概率越大。

m 为样本个数,ξ 为欧拉常数

随机森林优缺点总结

本期 AI 小课堂咱们一起理解了 Bagging 思维及其原理,以及基于 Bagging 的随机森林相干常识。最初,让咱们一起总结下随机森林的优缺点:

长处

(1) 训练能够并行化,对于大规模样本的训练具备速度的劣势;
(2) 因为进行随机抉择决策树划分特色列表,这样在样本维度比拟高的时候,依然具备比拟好的训练性能;
(3) 因为存在随机抽样,训练进去的模型方差小,泛化能力强;
(4) 实现简略;
(5) 对于局部特色缺失不敏感;
(6) 能够掂量特色的重要性。

毛病

(1) 在某些噪声比拟大的特色上,易过拟合;
(2) 取值比拟多的划分特色对 RF 的决策会产生更大的影响,从而有可能影响模型的成果。

退出移动版