关于机器学习:浅析决策树的生长和剪枝

简述：
决策树(Decision Tree）是在已知各种状况产生概率的根底上，通过形成决策树来求取净现值的期望值大于等于零的概率，评估项目风险，判断其可行性的决策分析办法，是直观使用概率分析的一种图解法。因为这种决策分支画成图形很像一棵树的枝干，故称决策树。在机器学习中，决策树是一个预测模型，他代表的是对象属性与对象值之间的一种映射关系，它是一种监督学习。

一．决策树模型
首先阐明下什么是决策树呢？决策树是一个相似流程图的树结构：每个外部节点 (分支节点 / 树枝节点) 示意一个特色或属性，每个树叶节点代表一个分类。

在决策树的成长过程中次要会存在的问题是：对于抉择分支节点的主观性较强。解决办法：利用信息熵或信息增益解决因为人主观判断问题，只须要计算信息熵或信息增益再排序从而正确分类的过程。

信息增益的含意：划分数据集前后信息产生的变动。

熵：物理学中指物体能量的散布平均状况，信息熵：对信息的不确定性的度量：公式：H(x)=-sum(plog(p))。信息熵越小，不确定性越小，确定性越大，信息的纯度越高。H(D)是数据集 D 的熵，计算公式：

Ck 是在数据集 D 中呈现 k 类的数量，N 是样本的数量，类别的总数。H(D|A) 是特色 A 对与数据集 D 的条件熵，其意义是：在子集 Di 中 Y 的散布。计算方法是：

GainA(A 的信息增益)=H_All(总体的信息熵)-H(A)(以 A 节点作为划分节点的信息熵)决策树中分支节点抉择：信息增益大的作为分支节点信息增益越大，信息熵越小，信息不确定性越小，确定性越大，纯度越高。综合之后信息增益的公式：

特色 A 对训练集 D 的信息增益比 gR(D,A)定义为

HA(D)刻画了特色 A 对训练集 D 的分辨能力，信息增益率改良因为信息增益偏差特色取值较多的不足之处，应用信息增益率进一步划分决策树。

以上决策算法：ID3 算法 - 信息增益、C4.5 算法 - 信息增益率。决策树剪枝策略：先剪枝、后剪枝，用于解决过拟合问题。

二．ID3 和 C4.5 划分策略
ID3 和 C4.5 算法的划分思维：依据信息增益或信息增益率抉择构建决策树的分支节点，顺次递归建树。

决策树构建的根本步骤：

(1)如果所有的属性都被用于划分，间接完结；

(2)计算所有特色的信息增益或信息增益率，抉择信息增益较大的 (如 a 节点) 值对应的特色进行分类；

(3)如果应用 a 节点作为划分节点没有划分实现，接下来应用除去 a 节点之外的其余特色节点中信息增益较大的进一步进行建设决策树。（递归建设决策树）

决策树进行进行成长的条件：

如果属性都用于划分，间接完结；如果还有没有被划分的节点，应用少数表决；
如果所有样本都曾经分类，间接完结；
定义最大不纯度进行度量；
定义叶子节点的数目；
定义分支节点蕴含的样本个数。
三．决策树剪枝
决策树是充分考虑了所有的数据点而生成的简单树，有可能呈现过拟合的状况，决策树越简单，过拟合的水平会越高。决策树的构建过程是一个递归的过层，所以必须确定进行条件，否则过程将不会进行，树会不停成长。

先剪枝：提前结束决策树的增长。预剪枝升高了过拟合的危险, 缩小了决策树的训练工夫开销和测试工夫开销. 带来了欠拟合的危险。

后剪枝：是指在决策树成长实现之后再进行剪枝的过程。—— 最小谬误剪枝技术 (MEP)，乐观谬误剪枝(MEP) 和代价复杂度剪枝 (CCP) 泛化性能往往优于预剪枝决策树, 训练工夫开销比未剪枝的决策树和预剪枝的决策树都要大得多。

总结：
应用决策树进行分类的长处是十分直观，便于了解，并且执行效率高，执行只须要一次构建，可重复应用。然而对小规模数据集才更无效，而且在解决连续变量时成果不好，较难预测间断字段，在类别较多时，谬误减少的比拟快。