关于数据挖掘:R语言分类回归决策树交互式修剪和更美观地可视化分析细胞图像分割数据集

9次阅读

共计 1784 个字符,预计需要花费 5 分钟才能阅读完成。

原文链接:http://tecdat.cn/?p=24956 

绘制分类或回归树的根本办法的 rpart() 函数只是调用 plot。然而,总的来说,后果并不丑陋。事实证明,一段时间以来,有一种更好的办法来绘制 rpart() 树。

咱们能够大略浏览下如何实现,并且进一步钻研。

# 绘制分类树图

library(rpart) # 风行的决策树算法
library(party) # 代替决策树算法
library(partykit) # 将 rpart 对象转换为二叉树
data# 获取一些数据

# 制大树
frm <- as.form
tee1 <- rpart
# 
plot# 绘图很凌乱
text
# 
pr# 将对树进行绘图
vale=3 # 缩短变量名称

# 对树进行交互式修剪
pp$obj # 以交互方式修剪树形
pp # 显示新的树木
#
#-------------------------------------------------------------------
rpart# 一个更正当的树
prp# 一个疾速绘图                                                    
fayRpPot# 一个来自 rattle 的花式绘图
#
#-------------------------------------------------------------------
# 绘制一棵用 RevoScaleR 构建的树
# 构建一个模型公式
names
X <- as.vector
frm <- as.form
# 运行模型
DTree
# 绘制树形图                        
prp
faRaPlt

数据形容

Hill, LaPan, Li 和 Haney(2007) 开发了模型来预测高含量屏幕中哪些细胞被很好地宰割。该数据由 2019 年的 119 次成像测量组成。最后的剖析应用 1009 个进行训练,1010 个作为测试集(见称为案例的一栏)。

具体内容

后果类别蕴含在一个名为 Class 的因子变量中,程度为 “PS “ 示意宰割不良,”WS “ 示意宰割良好。

论文中应用的原始数据能够在 Biomedcentral 网站上找到。caret < 4.98 的版本蕴含原始数据。当初的版本是通过批改的。首先,一些预测因子的几个离散版本(后缀为 “ 状态 ”)被删除。第二,有几个最小值为 0 的歪斜预测因子(将受害于某种转换,如对数)。在这些字段中退出了 1 的常量值。AvgIntenCh2、FiberAlign2Ch3、FiberAlign2Ch4、SpotFiberCountCh4 和 TotalIntenCh2。

修剪和绘制树

加载数据后,脚本构建 rpart() 分类树。应用 plot() 绘制树会产生一些笼罩文本的黑云,这是您尝试绘制一棵大树所冀望的典型后果。然而,pp() 在绘制树并仅应用默认设置显示其构造方面做得十分好。并且,应用批示 pr() 缩写变量名称的参数使绘图更具可读性。

接下来的几行代码展现了 pp() 的交互式修剪性能。调配对象 _new.tree.1 的行_ 产生一个“实时”树图。应用鼠标修剪树,点击“退出”并从新绘制,您将失去一个相当不错的树顶部绘图。这是将树顶部的清晰图片获取到报告中的奇妙办法。

修剪后绘制更好看的树 

tree.2,一个更正当的树,是仅仅承受 rpart 的后果。首先,应用默认设置应用 pp() 绘制这棵树,而后在下一行中,绘制该树。

此函数只是 pp() 函数的包装,但易于用于绘制分类树,并且是美学如何促成交换的一个很好的例子。每个节点框显示分类、该节点上每个类的概率(即以该节点为条件的类的概率)以及该节点应用的察看百分比。请留神虚线的应用如何偏向于强调节点而不是树自身,以及底部的叶子排列如何帮忙查看者猜想节点框中的百分比示意达到每个节点的察看百分比节点。(底行减少到 100%)。

脚本的最初几行应用函数结构了一个树,用于构建具备大量数据集的分类和回归树模型。


 

最受欢迎的见解

1. 从决策树模型看员工为什么到职

2.R 语言基于树的办法:决策树,随机森林

3.python 中应用 scikit-learn 和 pandas 决策树

4. 机器学习:在 SAS 中运行随机森林数据分析报告

5.R 语言用随机森林和文本开掘进步航空公司客户满意度

6. 机器学习助推快时尚精准销售工夫序列

7. 用机器学习辨认一直变动的股市情况——隐马尔可夫模型的利用

8.python 机器学习:举荐零碎实现(以矩阵合成来协同过滤)

9.python 中用 pytorch 机器学习分类预测银行客户散失

正文完
 0