关于数据挖掘:SPSS-Modeler用KmeansK均值聚类CHAIDCART决策树分析31省市土地利用情况和GDP数据

全文链接：http://tecdat.cn/?p=32840

原文出处：拓端数据部落公众号

随着经济的疾速倒退和城市化过程的一直推动，土地资源的利用和治理成为了一项极为重要的工作。而对于全国各省市而言，如何正当利用土地资源，通过迷信的办法进行布局和治理，是进步土地利用效率的要害。

本文旨在利用SPSS Modeler，帮忙客户采纳K-means（K-均值）聚类、CHAID、CART决策树等办法，对31个省市的土地利用状况数据进行剖析和建模，以期提供迷信无效的土地利用布局和管理策略。

31省市土地利用状况数据

数据流

本文应用的数据来自于国家统计局公布的31省市土地利用状况数据，选取31个省市作为钻研对象，并选取了包含草地、耕地、园地、林地、水域和建设用地等7种土地类型的利用状况数据。而后，应用SPSS Modeler进行数据荡涤、聚类、决策树等步骤，最终失去模型后果。

K-means（K-均值）聚类

在对残缺的数据集进行初步剖析后，本文采纳K-means聚类算法对数据集进行聚类分析。在聚类过程中，咱们首先须要确定聚类的个数k。依据肘部法令和轮廓系数法令，咱们得出最终抉择k=5为较为适合的聚类数目。通过SPSS Modeler的K-means节点进行计算，失去了以下聚类详情、聚类类别和散点图后果。

聚类详情

聚类类别

通过分类后果咱们不难看出,同类省份基本上是相邻省份,或是区域类型(沿海、内陆）类似的省份，对于同类省份，咱们能够采取类似的管理制度，使同等级省份失去更好的倒退，也能够利用政策形式让高等级省份带动低等级省份倒退。

CHAID决策树

在进行完K-means聚类分析后，为了更好地理解各个类别的特色和关系，本文应用CHAID决策树算法对数据集GDP的影响因素进行进一步的剖析。首先应用SPSS Modeler的CHAID节点进行计算，失去以下变量重要性和决策树后果。

变量重要性

在CHAID决策树算法中，咱们应用卡方值（χ2）来表征每个变量的重要性。具体而言，卡方值越大，则该变量在分类中起到的作用越大。在本文的剖析中，最具备代表性的变量是园地、农用地和交通用地比重。

决策树后果

通过CHAID决策树算法，咱们失去了以下的决策树模型。其中每个叶子节点代表一类，而每个外部节点蕴含了一个决策规定，用于判断不同属性值的记录应该属于哪一个分支。在决策树中房地产用地比重、建设用地比重和城市扩张水平等变量对分类后果有较大的影响。

模型误差

为了测验CHAID决策树模型的性能，咱们采纳随机抽样的办法将数据集分为训练集和测试集，而后利用训练集来训练模型，并应用测试集来验证模型的预测精度。

CART决策树：

除了应用CHAID决策树算法外，本文还采纳了CART决策树算法对数据进行建模。通过SPSS Modeler的C&RT节点进行计算，失去以下变量重要性和决策树构造。

变量重要性

在CART决策树算法中，咱们应用基尼指数（Gini Index）来掂量每个变量的重要性。具体而言，基尼指数越小，则该变量在分类中起到的作用越大。在本文的剖析中，最具备代表性的变量是交通、修建和工矿用地面积。

决策树构造

通过CART决策树算法，咱们失去了以下的决策树模型。在该模型中，每个外部节点代表一个判断规定，而每个叶子节点代表一个分类。最终的分类后果与CHAID决策树模型比拟类似，也可提供对土地利用治理的一些启发。

模型误差后果：

同样采纳随机抽样的办法将数据集分为训练集和测试集，应用训练集训练模型，并应用测试集验证模型预测的准确性。

论断：

最终咱们失去了以下后果文件：

本文旨在利用SPSS Modeler，采纳K-means（K-均值）聚类、CHAID、CART决策树等办法，对31个省市的土地利用状况数据进行剖析和建模，并为迷信无效的土地利用布局和管理策略提供参考。通过聚类和决策树剖析，咱们得出以下论断：

1.不同省市的土地利用存在显著差别，按次要利用类型可分为5类；

2.交通、建筑用地面积比重是次要影响土地利用的因素；

3.通过CHAID和CART决策树算法，咱们能够较准确地对不同地区的土地利用进行分类，并提出相应的治理倡议。

本文的钻研论断对于全国土地资源的利用和治理具备肯定的参考价值，其办法也能够在其余畛域中失去利用和推广。

最受欢迎的见解

1.R语言k-Shape算法股票价格工夫序列聚类

2.R语言基于温度对城市档次聚类、kmean聚类、主成分剖析和Voronoi图

3.R语言对用电负荷工夫序列数据进行K-medoids聚类建模和GAM回归

4.r语言鸢尾花iris数据集的档次聚类

5.Python Monte Carlo K-Means聚类实战

6.用R进行网站评论文本开掘聚类

7.R语言KMEANS均值聚类和档次聚类：亚洲国家地区生存幸福品质异同可视化**

8.PYTHON用户散失数据挖掘：建设逻辑回归、XGBOOST、随机森林、决策树、反对向量机、奢侈贝叶斯模型和KMEANS聚类用户画像

9.R语言基于Keras的小数据集深度学习图像分类

关于数据挖掘:SPSS-Modeler用KmeansK均值聚类CHAIDCART决策树分析31省市土地利用情况和GDP数据

全文链接：http://tecdat.cn/?p=32840

原文出处：拓端数据部落公众号

31省市土地利用状况数据

数据流

K-means（K-均值）聚类

聚类详情

聚类类别

CHAID决策树

变量重要性

决策树后果

模型误差

CART决策树：

变量重要性

决策树构造

模型误差后果：

论断：

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于数据挖掘:SPSS-Modeler用KmeansK均值聚类CHAIDCART决策树分析31省市土地利用情况和GDP数据

全文链接：http://tecdat.cn/?p=32840

原文出处：拓端数据部落公众号

31省市土地利用状况数据

数据流

K-means（K-均值）聚类

聚类详情

聚类类别

CHAID决策树

变量重要性

决策树后果

模型误差

CART决策树：

变量重要性

决策树构造

模型误差后果：

论断：

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复