关于javascript:浅谈树模型与集成学习从决策树到GBDT

引言

神经网络模型，特地是深度神经网络模型，自AlexNet在Imagenet Challenge 2012上的一举成名，无疑是Machine Learning Research上最靓的仔，各种停顿和冲破层出不穷，科学家工程师人人都爱它。
机器学习钻研倒退至今，除了神经网络模型这种办法门路外，还存在许多天壤之别的办法门路，比如说贝叶斯算法、遗传算法、反对向量机等，这些经典算法在许多场景上也始终沿用。本文介绍的树模型，也是一种十分经典的机器学习算法，在举荐零碎上常常能看到它的身影。
那这个树模型是怎么构建和实现的，其外围idea是什么？树模型成果不够好，又能够用什么样的思路和方法改良呢？本文次要蕴含以下三个方面的内容：

1.决策树  
2.集成学习  
3.随机森林与梯度晋升决策树

决策树

决策树(Decision Tree)是树模型中最简略的一个模型，也是前面将要介绍到的随机深林与梯度晋升决策树两个模型的根底。利用决策树算法，在历史约会数据集上，咱们能够画出这样一个树，这颗树上的叶子节点示意论断，非叶子节点示意根据。一个样本依据本身特色，从根节点开始，依据不同根据决策，拆分成子节点，直到只蕴含一种类别(即一种论断)的叶子节点为止。

假如有如下面表格的一个数据集，基于这样数据能够构建成这样的一颗决策树，如下图所示。

信息熵与基尼不纯度

能够看出构建决策树的要害是”决裂”，一直地决裂成子节点，始终到叶子节点(不能决裂)为止。<font color=’red’>那么这个要害决裂的规范和办法是什么、怎么分才是最好最失当的呢？显然，能把正负样本齐全划分开，一边正一边负，两边汇合都是很“确定的”最好</font>。在这里确定性是指一个事件只呈现一个后果的可能性，那如何量化“确定性”这个指标呢，个别有两种办法：信息熵和基尼不纯度。
信息熵Entropy，是用来掂量信息的不确定性的指标，其计算形式如下：

其中P(X=i)为随机变量X取值为i的概率。
基尼不纯度，实际上是对信息熵的一种近似的简化计算，因为对进行泰勒开展后，因为，所以高阶项近似为0可疏忽，仅保留一阶项1-P(X=i)

其中示意选中样本为第k类的概率。从公式上看，基尼不纯度可了解为，从数据集D中随机抽取两个样本，这两个样本刚好不同类的概率。
信息熵和基尼不纯度都能主观而具体地量化出“不确定性”，这两个指标越大反映事物不确定性的水平越高。

比方有三个硬币，第一个硬币其正反面品质齐全平衡，抛出正反面概率雷同，第二个硬币侧面品质大于反面，其抛出侧面概率远大于反面，第三个硬币则肯定会抛出侧面。这三个硬币外面，第三个硬币的不确定性的水平最低，因为其没有任何的不确定性，抛出侧面是个必然事件；第一个硬币不确定性的水平最高，没方法确定抛出的侧面还是反面；第二个硬币不确定性水平次之，因为其有比拟大概率是能抛出侧面，能绝对确定一些。

构建分类树

有了对”不确定性”的量化办法，咱们利用这些指标，来领导咱们应该抉择那个特色、特色怎么分叉，保障每一步“决裂”都是最优的，始终迭代到叶子节点为止。显然这个决策树的构建算法就是个贪婪算法。思考到算法实现的问题，这个决策树最好是二叉的而不是多叉，所以咱们个别用二叉的CART(Classification And Regression Tree)算法构建决策树。
以约会数据集D为例，Gini(D) = 0.5，划分成两个汇合d1, d2，标签0和1示意否和是。基尼增益，如下表格所示咱们利用基尼增益选特色，并确认其最佳分叉点。

可见，基于气温特色在分叉点为26.5的状况下，将数据集D划分成<d1, d2>两个汇合，其取得基尼增益最大。反复这个步骤，将d1和d2持续拆分上来，直到汇合无奈再分，或基尼增益小于或等于0为止。

构建回归树

决策树用于回归问题，思路与用分类问题的思路是一样的。只是将决裂好坏的评估办法，又信息熵改成平方误差函数，也就是把增益函数改成平方误差增益即可。
假如训练集中第j个特色变量和它的取值s，作为切分变量和切分点，并定义两个区域、为找出最优的j和s，对下式求解

进步树模型的性能

在构建决策树的过程中，咱们能看到只有样本不抵触(样本既是正样本，又是负样本)，是肯定能收敛的，代价就是在决策树上增加更多（笼罩样本少的）叶子节点。然而这样的决策树，是齐全没用演绎总结数据的法则，只是相当于把训练集用树的模式给背了下来，对于未训练的数据样本可能齐全不是一回事，这学到的模型实际上是没有意义的。
决策树比拟容易过拟合，因而须要树的构造进行束缚。利用剪枝等办法来砍掉冗余的分支，使得树结构尽量简略，以进步树模型在未训练数据上的预测体现(也就是泛化能力)。除此之外，集成学习(Ensemble Learning)，横向地减少多个树，并利用多个树模型后果综合判断，也是个能进步模型性能罕用办法。常常用在机器学习畛域上的各种较量和比赛上，是个经典的刷榜套路。

集成学习

咱们晓得模型都不是完满的，而是有误差的。而模型的误差能够分成两种，一种是偏差(Bias)可了解为与模型预测均值与样本真值的误差，一种是方差(Variance)可了解为模型预测值本身的变动幅度。下图形象地了形容这两个概念。

集成学习算法思考的问题就是：<font color=’red’>多个误差大成果差的个体模型，能不能以某种模式集成起来，变成一个误差变小成果变好的总体模型呢？</font>这个答案必定是显然的，咱们都晓得人民大众力量大。其背地的思维就是即便有个别模型预测谬误，那么还有其余模型能够纠正回来，正所谓三个臭皮匠胜过一个诸葛亮。
从集成模式上看，次要能够分成两类，一类模型并行集成的bagging办法，一类模型串行集成的boosting办法。至于为什么能通过这样模式的集成就能提性能，其理论依据是什么？这可由模型总体冀望和方差，与个体模型方差和偏差之间关系，得出严格的数学推导和证实，这里就不开展了。

随机森林

随机森林(Random Forrest)，一个基于bagging办法，把多个决策树集成到一起的模型算法。其外围的算法思维就是，通过多个(低偏差高方差)个体模型的均值，来形式升高总体方差的学习办法。随机森林算法框架如下图所示。

随机森林构建流程如下:

1. 把原始集上随机只采样N份样本数据集，且每份样本数据集随机只采样M个特色，失去若干份数据集
2. 在每个数据集上独立构建一颗决策树，失去N颗决策树

随机森林应用流程如下:

1. 把待预测的样本数据，输出到N个决策数，失去N个预测后果   
2. 对这些预测后果，以投票(分类)或均匀(回归)的计算形式最终后果

可见，在随机森林外面，每一颗决策树的构建(训练)都独立的，他们之间是并行的没有依赖。只是在最初应用(预测)时，要把森林上所有树的后果都过一遍，通过大家投票或均匀的形式给出一个final decision。

梯度晋升决策树

简称GBDT(Gradient Boosting Decision Tree)，一个基于boosting把多颗决策树串联集成一起训练学习的算法，其外围的算法思维是基于残差的学习，通过多个(低方差高偏差的)个体模型的叠加求和，来升高总体偏差的学习办法。
假如样本X的真值为30，模型1预测后果与真值的残差为10。为了修补这个残差，须要把样本X再送到模型2，但此时模型2训练的指标，并不是样本自身的真值30，而是以后的残差10。此时模型1和模型2相加后，残差曾经从10减小4了。以雷同的形式再训练模型3和模型4，总体的残差会越来越小，总体后果就是所有模型输入相加之和，如下为GBDT的训练过程示意图。

可见，这与bagging的随机森林办法齐全不一样。前者模型之间互相独立，只有把子模型一一独自训练完就好了。而后者模型前后之间有依赖的关系，必须是练好上一颗树好后，依据残差再练下一颗，one by one的形式来训练。那如何实现这样的学习算法呢？GBDT就是这样的学习算法，其框架图如下：

指标函数构建

咱们晓得对于逻辑回归模型的学习问题，其优化指标就是最小化穿插熵(CrossEntropy)损失函数：

因为这函数是个凸函数的，所以这个最小值的求解问题比较简单。只有通过梯度降落法，迭代参数W迫近极值，就能使得穿插熵损失函数取到最小值。那么对于boosting这样加法模型的学习问题，其优化指标或者说损失函数，这个函数应该是长什么样子的，又是如何构建的呢？
要确定损失函数，首先第一步得确定模型是怎么输入预测值的。假设有曾经训练了K颗树，则对于第i个样本的以后预测值为：

那么指标函数则就能够这样构建：

表达式左边的为正则项，用来管制模型构造的复杂程度，在决策树模型中，罕用树的叶节点数量、叶子节点的值、以及树的深度来定义之。重点来关注右边的损失函数，应该怎么求解其最小值呢。进一步拆解损失函数，实现损失函数参数化：假设现有K颗树，后面的K-1颗树曾经训练好，以后须要训练第K颗树。对于输出样本，如下图所示：

则指标函数可简化为

当训练第K颗树时，前K-1颗树曾经确定下来，所以可作常数对待，与第K颗树无关，故此时指标函数为：

指标函数仍难以优化，利用泰勒级数来近似

泰勒开展只保留前二阶，此时指标函数可写成：

当初最优化的指标参数是，所以与无关的项都能够去掉。令和为对于的一二阶导数，因为前K-1颗树已训练，所以这两个值可算出，可认为是已知的。

故指标函数再简化为:

最优化树参数的求解

决策树的输入函数f的，能够这样定义：，其中q(x)是地位函数，示意样本x会落到树的那个地位(第几个叶子节点)，示意第j个叶子的值。而树结构束缚函数，与叶子的值W和叶子的个数T无关，别离由两个超参数来管制：

故此时指标函数再简化为：

在树状态确定情景下，遍历样本组织模式，可叶子上样本汇合划分，一一汇合模式来遍历，比方下图先叶子节点1上的{1,2}样本，再叶子接上2上{3,5}，如下图：

示意叶子节点j上的样本汇合，
则的指标函数写成下模式为：

再令，在树形态确定已知时，这两个都是常数。此时就只剩下W一个参数了，而此时的指标函数就成了一个最简略的一元二次函数，这个函数极值点能够间接用通解公式就能够算进去。

最优化树状态的求解

训练数据无限，而树的状态是有限的。有有限多种状态的树，都能把这些训练放入到其叶子节点上。在这里寻找一个最优的，其实就是个典型NP-hard问题，很难间接优化。而且树的状态，也很难定义成一个间断的函数，没有条件用梯度降落来求解。那么如何求解之？跟决策树的构建算法一样，沿用贪婪算法思路，遍历所有特色，找以后最优的特色划分办法F，确定最优树状态。

如上图，假设以后曾经决策树曾经分成了两个叶子点(框线内)，此时应该不应该通过特色F持续决裂，抉择那种划分形式最好？

故通过特色划分办法F所造成的树形，使得最大化，就是以后最优的树形态。为了算法实现的便当，咱们限度了特色划分的模式，对于每一步叶子节点划分操作，都只能决裂左右两个叶子节点，以确保树是二叉的。所以最终有：

援用

XGBoost：A Scalable Tree Boosting System. KDD 2016 ChenTianqi
【机器学习】决策树（中）https://zhuanlan.zhihu.com/p/…

欢送关注凹凸实验室博客：aotu.io

或者关注凹凸实验室公众号（AOTULabs），不定时推送文章。

关于javascript:浅谈树模型与集成学习从决策树到GBDT

引言

决策树

信息熵与基尼不纯度

构建分类树

构建回归树

进步树模型的性能

集成学习

随机森林

梯度晋升决策树

指标函数构建

最优化树参数的求解

最优化树状态的求解

援用

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于javascript:浅谈树模型与集成学习从决策树到GBDT

引言

决策树

信息熵与基尼不纯度

构建分类树

构建回归树

进步树模型的性能

集成学习

随机森林

梯度晋升决策树

指标函数构建

最优化树参数的求解

最优化树状态的求解

援用

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复