关于算法:5CART树

5次阅读

共计 1864 个字符，预计需要花费 5 分钟才能阅读完成。

CART 树（Classification and Regression Tree）分类回归树，既能够用于创立分类树，也能够用于创立回归树。

分类树：以 C4.5 为例，每次分枝时，是穷举每 个特色 的每一个阈值，依照 $featur{e_i} \le threshold$ 来划分最大熵值的特色 + 阈值。

回归树：总体流程相似，区别在于回归树的每个节点都会失去一个预测值，这个预测值个别是被划分样本均值。在穷举 feature 值寻找最长处时，衡量标准不再是最大熵而是均方误差。

区别：

不论是分类树还是回归树，每棵树都是一个判断的特色阈值。
分类树最初是类别，回归树最初是一个拟合值。
寻找划分阈值时，分类树用 C4.5；回归树用最小二乘。
节点输入值，回归树多一个拟合值。

重点讲下回归树是如何选取特色和阈值；以及决定节点的输入值？

1. 抉择特色 + 阈值：

假如将输出空间划分为 m 个区域：${R_1},{R_2},…,{R_{\rm{m}}}$，每个区域上输入值为 ${c_m}$，回归树模型能够示意为：

$$
f(x) = \sum\limits_{m = 1}^M {{c_m}I(x \in {R_m})}
$$

抉择第 j 个特色 ${x^{(j)}}$ 和它的取值 s 作为切分根据，定义两个区域：

$$
{R_1}(j,s) = \{x|{x^{(j)}} \le s\} ,{R_2}(j,s) = \{x|{x^{(j)}} > s\}
$$

利用最小二乘寻找最优切分点：

$$
\mathop {\min}\limits_{j,s} [\mathop {\min}\limits_{{c_1}} \sum\limits_{{x_i} \in {R_1}} {{{({y_i} – {c_1})}^2} + } \mathop {\min}\limits_{{c_2}} \sum\limits_{{x_i} \in {R_2}} {{{({y_i} – {c_2})}^2}} ]
$$

抉择的特色为 j，j 特色的阈值为 s。

2. 节点的输入值：

选定最优切分变量 j 和最优阈值 s 后，此节点的输入值为:

$$
{c_1} = mean({y_i}|{x_i} \in {R_1}(j,s)),{c_2} = mean({y_i}|{x_i} \in {R_2}(j,s))
$$

遍历所有的特色形成(j,s)，并一直顺次划分空间，这样就生成了一棵回归树。

熵值计算：

$$
H(D) = – \sum\limits_{k = 1}^K {\frac{{\left| {{C_k}} \right|}}{{\left| D \right|}}\log } \frac{{\left| {{C_k}} \right|}}{{\left| D \right|}} = – \sum {{p_i}\log {p_i}}
$$

1. 信息增益（ID3）

$$
信息增益 =entropy(前)-entropy(后)
$$

$$
g(D,A) = H(D) – H(D|A)
$$

ID3 偏差取值较多的特色（取值较多的特色更容易失去纯度高的子集），因为取值越多越有机率使得子集纯度更高

2. 信息增益比（C4.5）

$$
信息增益比 = 惩办系数 * 信息增益
$$

$$
{g_R}(D,A){\rm{ =}}\frac{{g(D,A)}}{{{H_A}(D)}},{H_A}(D) = – \sum\limits_{k = 1}^n {\frac{{\left| {{D_k}} \right|}}{{\left| D \right|}}\log } \frac{{\left| {{D_k}} \right|}}{{\left| D \right|}}
$$

${H_A}(D)$：特色 A 有 n 个值，计算 D 下依照 n 个 A 值进行划分，n 越多 H 值越大以此来克制多值的特色。

3. 基尼指数（Gini）

基尼指数示意：在样本汇合中一个随机样本被份错的概率

$$
基尼指数 = 样本被选中的概率 * 样本被分错的概率
$$

$$
Gini(p) = \sum\limits_{k = 1}^K {{p_k}(1 – {p_k})}
$$

$$
Gini(D) = 1 – {\sum\limits_{k = 1}^K {(\frac{{\left| {{C_k}} \right|}}{{\left| D \right|}})} ^2}
$$

$$
Gini(D,A) = \frac{{\left| {{D_1}} \right|}}{{\left| D \right|}}Gini({D_1}) + \frac{{\left| {{D_2}} \right|}}{{\left| D \right|}}Gini({D_2})
$$

CART 采纳的就是基尼指数

参考 https://zhuanlan.zhihu.com/p/…

正文完

算法

发表至：算法

2020-10-15

0

关于算法:几乎刷完了力扣所有的链表题我发现了这些东西

中缀表达式转后缀表达式并计算结果Java实现

关于算法:矩阵最小广播数

关于算法:双指针算法模板及练习

关于react.js:汽车仿真效率30↑药物研发效率20倍↑阿里云获HPC-CHINA-2020最佳行业应用奖

关于算法:5CART树

CART 树

分类树的三个准则

站内搜索