共计 5205 个字符,预计需要花费 14 分钟才能阅读完成。
原文链接:http://tecdat.cn/?p=9859
概观
本文是无关 基于树的 回归和分类办法的。
树办法简略易懂,但对于解释却十分有用,但就预测准确性而言,它们通常无奈与最佳监督学习办法竞争。因而,咱们还介绍了 Bagging(自助法),随机森林和加强树。这些示例中的每一个都波及产生多个树,而后将其合并以产生单个共识预测。咱们看到,合并大量的树能够大大提高预测准确性,但代价是损失解释能力。
决策树能够利用于回归和分类问题。咱们将首先思考回归。
决策树根底:回归
咱们从一个简略的例子开始:
咱们预测棒球运动员的 Salary
。
后果将是一系列决裂规定。第一个分支会将数据宰割 Years < 4.5
为左侧的分支,其余的为右侧。如果咱们对此模型进行编码,咱们会发现关系最终变得略微简单一些。
library(tree)
library(ISLR)
attach(Hitters)
# 删除 NA 数据
Hitters<- na.omit(Hitters)
# log 转换 Salary 使其更正态分布
hist(Hitters$Salary)
Hitters$Salary <- log(Hitters$Salary)
hist(Hitters$Salary)
summary(tree.fit)
##
## Regression tree:
## tree(formula = Salary ~ Hits + Years, data = Hitters)
## Number of terminal nodes: 8
## Residual mean deviance: 0.271 = 69.1 / 255
## Distribution of residuals:
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -2.2400 -0.2980 -0.0365 0.0000 0.3230 2.1500
当初,咱们探讨通过对特色空间进行分层来构建预测树。通常,有两个步骤。
- 找到最能分隔因变量的变量 / 拆分,从而产生最低的 RSS。
- 将数据分为两个在第一个标识的节点上的叶子。
- 在每片叶子中,找到分隔后果的最佳变量 / 宰割。
指标是找到最小化 RSS 的区域数。然而,思考将每个可能的分区划分为_J 个_区域在计算上是不可行的。为此,咱们采取了 自上而下的__贪心 的办法。它是自顶向下的,因为咱们从所有观测值都属于一个区域的点开始。贪心是因为在树构建过程的每个步骤中,都会在该特定步骤中抉择最佳拆分,而不是向前看会在未来的某个步骤中生成更好树的拆分。
一旦创立了所有区域,咱们将应用每个区域中训练察看的平均值预测给定测试察看的因变量。
剪枝
只管下面的模型能够对训练数据产生良好的预测,然而根本的树办法可能会适度拟合数据,从而导致测试性能不佳。这是因为生成的树往往过于简单。具备较少拆分的较小树通常以较小的偏差为代价,从而导致方差较低,易于解释且测试谬误较低。实现此目标的一种可能办法是仅在每次拆分导致的 RSS 缩小量超过某个(高)阈值时,才构建一棵树。
因而,更好的策略是生成一棵树,而后 修剪 回去以取得更好的子树。
_老本复杂度剪枝算法_- 也称为最弱链接修剪为咱们提供了解决此问题的办法。而不是思考每个可能的子树,咱们思考由非负调整参数索引的树序列 alpha
。
trees <- tree(Salary~., train)
plot(trees)
text(trees, pretty=0)
plot(cv.trees)
仿佛第 7 棵树的偏差最小。而后咱们能够剪枝树。然而,这并不能真正剪枝模型,因而咱们能够抉择较小的树来改善偏差状态。这大概是在第四个分支。
prune.trees <- prune.tree(trees, best=4)
plot(prune.trees)
text(prune.trees, pretty=0)
应用剪枝的树对测试集进行预测。
mean((yhat - test$Salary)^2)
## [1] 0.3531
分类树
分类树与回归树十分类似,不同之处在于分类树用于预测定性而不是定量。
为了增长分类树,咱们应用雷同的递归二进制拆分,然而当初 RSS 不能用作拆分规范。代替办法是应用 _分类错误率_。尽管很直观,但事实证明,此办法对于树木成长不够敏感。
实际上,另外两种办法是可取的,只管它们在数值上十分类似:
Gini index_是_K 个_ 类之间总方差的度量。
如果给定类别中的训练观测值的比例都靠近零或一,则__cross-entropy_的值将靠近零。
修剪树时,首选这两种办法,但如果以最终修剪模型的预测精度为指标,则规定分类错误率是优选的。
为了证实这一点,咱们将应用 Heart
数据集。这些数据蕴含 AHD
303 名胸痛患者的二进制后果变量。后果被编码为 Yes
或 No
存在心脏病。
dim(Heart)
[1] 303 15
到目前为止,这是一棵非常复杂的树。让咱们确定是否能够通过应用分类评分办法的穿插验证来应用修剪后的版本改善拟合度。
cv.trees
## $size
## [1] 16 9 5 3 2 1
##
## $dev
## [1] 44 45 42 41 41 81
##
## $k
## [1] -Inf 0.0 1.0 2.5 5.0 37.0
##
## $method
## [1] "misclass"
##
## attr(,"class")
## [1] "prune" "tree.sequence"
看起来 4 棵决裂树的偏差最小。让咱们看看这棵树是什么样子。同样,咱们应用 prune.misclass
分类设置。
prune.trees <- prune.misclass(trees, best=4)
plot(prune.trees)
text(prune.trees, pretty=0)
## Confusion Matrix and Statistics
##
## Reference
## Prediction No Yes
## No 72 24
## Yes 10 45
##
## Accuracy : 0.775
## 95% CI : (0.7, 0.839)
## No Information Rate : 0.543
## P-Value [Acc > NIR] : 2.86e-09
##
## Kappa : 0.539
## Mcnemar's Test P-Value : 0.0258
##
## Sensitivity : 0.878
## Specificity : 0.652
## Pos Pred Value : 0.750
## Neg Pred Value : 0.818
## Prevalence : 0.543
## Detection Rate : 0.477
## Detection Prevalence : 0.636
## Balanced Accuracy : 0.765
##
## 'Positive' Class : No
##
在这里,咱们取得了约 76%的精度。
那么为什么要进行拆分呢?拆分导致_节点纯度_进步,这可能会在应用测试数据时有更好的预测。
树与线性模型
最好的模型始终取决于以后的问题。如果能够通过线性模型近似该关系,则线性回归将很可能占主导地位。相同,如果咱们在特色和 y 之间具备简单的,高度非线性的关系,则决策树可能会胜过传统办法。
长处 / 毛病
长处 :
- 树比线性回归更容易解释。
- 更能反映了人类的决策。
- 易于以图形形式显示。
- 能够解决没有伪变量的定性预测变量。
毛病 :
- 树木通常不具备与传统办法雷同的预测准确性,然而,诸如 Bagging,随机森林和加强等办法 能够进步性能。
其余例子
树结构中理论应用的变量:“价格”、“CompPrice”、“年龄”、“支出”、“ShelveLoc”、“广告”,终端节点数:19,残差平均偏差:0.414 = 92/222,谬误分类错误率:0.0996 = 24/241
在这里,咱们看到训练误差约为 9%。咱们 plot()
用来显示树结构和 text()
显示节点标签。
plot(sales.tree)
text(sales.tree, pretty=0)
让咱们看看残缺的树如何解决测试数据。
## Confusion Matrix and Statistics
##
## Reference
## Prediction High Low
## High 56 12
## Low 23 68
##
## Accuracy : 0.78
## 95% CI : (0.707, 0.842)
## No Information Rate : 0.503
## P-Value [Acc > NIR] : 6.28e-13
##
## Kappa : 0.559
## Mcnemar's Test P-Value : 0.091
##
## Sensitivity : 0.709
## Specificity : 0.850
## Pos Pred Value : 0.824
## Neg Pred Value : 0.747
## Prevalence : 0.497
## Detection Rate : 0.352
## Detection Prevalence : 0.428
## Balanced Accuracy : 0.779
##
## 'Positive' Class : High
##
约 74%的测试错误率相当不错,然而咱们能够通过穿插验证来改善它。
在这里,咱们看到最低的谬误分类谬误是模型 4 的。当初咱们能够将树修剪为 4 模型。
## Confusion Matrix and Statistics
##
## Reference
## Prediction High Low
## High 52 20
## Low 27 60
##
## Accuracy : 0.704
## 95% CI : (0.627, 0.774)
## No Information Rate : 0.503
## P-Value [Acc > NIR] : 2.02e-07
##
## Kappa : 0.408
## Mcnemar's Test P-Value : 0.381
##
## Sensitivity : 0.658
## Specificity : 0.750
## Pos Pred Value : 0.722
## Neg Pred Value : 0.690
## Prevalence : 0.497
## Detection Rate : 0.327
## Detection Prevalence : 0.453
## Balanced Accuracy : 0.704
##
## 'Positive' Class : High
##
这并不能真正改善咱们的分类,然而咱们大大简化了模型。
## CART
##
## 241 samples
## 10 predictors
## 2 classes: 'High', 'Low'
##
## No pre-processing
## Resampling: Cross-Validated (10 fold)
##
## Summary of sample sizes: 217, 217, 216, 217, 217, 217, ...
##
## Resampling results across tuning parameters:
##
## cp ROC Sens Spec ROC SD Sens SD Spec SD
## 0.06 0.7 0.7 0.7 0.1 0.2 0.1
## 0.1 0.6 0.7 0.6 0.2 0.2 0.2
## 0.4 0.5 0.3 0.8 0.09 0.3 0.3
##
## ROC was used to select the optimal model using the largest value.
## The final value used for the model was cp = 0.06.
## Confusion Matrix and Statistics
##
## Reference
## Prediction High Low
## High 56 21
## Low 23 59
##
## Accuracy : 0.723
## 95% CI : (0.647, 0.791)
## No Information Rate : 0.503
## P-Value [Acc > NIR] : 1.3e-08
##
## Kappa : 0.446
## Mcnemar's Test P-Value : 0.88
##
## Sensitivity : 0.709
## Specificity : 0.738
## Pos Pred Value : 0.727
## Neg Pred Value : 0.720
## Prevalence : 0.497
## Detection Rate : 0.352
## Detection Prevalence : 0.484
## Balanced Accuracy : 0.723
##
## 'Positive' Class : High
##
抉择了更简略的树,预测精度有所升高。
最受欢迎的见解
1. 从决策树模型看员工为什么到职
2. R 语言基于树的办法:决策树,随机森林
3.python 中应用 scikit-learn 和 pandas 决策树
4. 机器学习:在 SAS 中运行随机森林数据分析报告
5. R 语言用随机森林和文本开掘进步航空公司客户满意度
6. 机器学习助推快时尚精准销售工夫序列
7. 用机器学习辨认一直变动的股市情况——隐马尔可夫模型的利用
8.python 机器学习:举荐零碎实现(以矩阵合成来协同过滤)
9.python 中用 pytorch 机器学习分类预测银行客户散失