关于数据挖掘:IBM-SPSS-Modeler分类决策树C50模型分析空气污染物数据附代码数据

8次阅读

共计 1396 个字符,预计需要花费 4 分钟才能阅读完成。

全文链接:http://tecdat.cn/?p=30752

最近咱们被客户要求撰写对于决策树的钻研报告,包含一些图形和统计输入。

如何通过办法无效的剖析海量数据,并从其中找到无利的资讯曾经成为一种趋势

而决策树算法是目前在进行数据分析时很罕用的办法。本文将应用 IBM SPSS Modeler 进行实际,介绍决策树在空气污染预测畛域的实际案例。

分类预测模型的构建流程,具体步骤如下:

(1)数据处理:审核数据,过滤掉含有缺失值的数据记录。

(2)划分数据集,训练集 70%,测试集 30%。

(3)构建模型时的参数设置。

(4)构建模型:构建 C5.0 模型。

(5)后果评估,用测试集数据运行失去的运行后果,对模型采纳命中率评估两个模型的预测成果。

退出表节点

读取数据

增加“抽样”节点

随机抽取 70% 的样本作为训练集

“C5.0”节点

生成的决策树模型,并对测试数据进行预测

失去测试数据的分类后果的准确度

预测分类后果

有 88.1% 的测试样本的预测值和理论值相符。

并且失去如下的决策树模型:


点击题目查阅往期内容

[](http://mp.weixin.qq.com/s?__b…)数据分享 |PYTHON 用决策树分类预测糖尿病和可视化实例

左右滑动查看更多

01

02

03

04

其中变量的重要性如下图所示:

从后果能够看到,首要污染物类型与 AQI、NO2 还有 O3 等变量无关。其中 AQI 对首要污染物类型的后果具备最重要的影响。

C5.0 是在 C4.5 的根底上倒退起来的。C5.0 算法是用信息增益(根节点的熵减去该拆分的熵)来度量拆分纯度的。第一次拆分某一字段,划分出绝对应的样本子集。而后持续拆分这些样本子集,个别状况下应用的是另一字段进行拆分,始终循环这样一个过程,直到满足拆分终止条件。最初,若生成的树呈现适度拟合的情况,则要修剪那些不足价值的样本子集。

点击文末 “浏览原文”

获取全文残缺代码数据资料。

本文选自《IBM SPSS Modeler 分类决策树 C5.0 模型剖析空气污染物数据》。

点击题目查阅往期内容

数据分享 |Spss Modeler 关联规定 Apriori 模型、Carma 算法剖析超市顾客购买商品数据挖掘实例
数据分享 |Python 用 Apriori 算法关联规定剖析亚马逊购买书籍关联举荐客户和网络图可视化
【视频】关联规定模型、Apriori 算法及 R 语言开掘商店交易数据与交互可视化 | 数据分享
R 语言用关联规定和聚类模型开掘处方数据摸索药物配伍中的法则
用 SPSS Modeler 的 Web 简单网络对所有腧穴进行关联规定剖析
PYTHON 在线批发数据关联规定开掘 APRIORI 算法数据可视化
R 语言关联规定模型 (Apriori 算法) 开掘杂货店的交易数据与交互可视化
R 语言关联开掘实例(购物篮剖析)
python 关联规则学习:FP-Growth 算法对药品进行“菜篮子”剖析
基于 R 的 FP 树 fp growth 关联数据挖掘技术在煤矿隐患治理
python 关联规则学习:FP-Growth 算法对药品进行“菜篮子”剖析
通过 Python 中的 Apriori 算法进行关联规定开掘
Python 中的 Apriori 关联算法 - 市场购物篮剖析
R 语言用关联规定和聚类模型开掘处方数据摸索药物配伍中的法则
在 R 语言中轻松创立关联网络
python 主题建模可视化 LDA 和 T -SNE 交互式可视化
R 语言工夫序列数据指数平滑法分析交互式动静可视化
用 R 语言制作交互式图表和地图
如何用 r 语言制作交互可视化报告图表

正文完
 0