关于数据挖掘:SPSS-Modeler用KmeansK均值聚类CHAIDCART决策树分析31省市土地利用情况和GDP数据

55次阅读

共计 2045 个字符,预计需要花费 6 分钟才能阅读完成。

全文链接:http://tecdat.cn/?p=32840

原文出处:拓端数据部落公众号

随着经济的疾速倒退和城市化过程的一直推动,土地资源的利用和治理成为了一项极为重要的工作。而对于全国各省市而言,如何正当利用土地资源,通过迷信的办法进行布局和治理,是进步土地利用效率的要害。

本文旨在利用 SPSS Modeler,帮忙客户采纳 K -means(K- 均值)聚类、CHAID、CART 决策树等办法,对 31 个省市的土地利用状况数据进行剖析和建模,以期提供迷信无效的土地利用布局和管理策略。

31 省市土地利用状况数据

数据流

本文应用的数据来自于国家统计局公布的 31 省市土地利用状况数据,选取 31 个省市作为钻研对象,并选取了包含草地、耕地、园地、林地、水域和建设用地等 7 种土地类型的利用状况数据。而后,应用 SPSS Modeler 进行数据荡涤、聚类、决策树等步骤,最终失去模型后果。

K-means(K- 均值)聚类

在对残缺的数据集进行初步剖析后,本文采纳 K -means 聚类算法对数据集进行聚类分析。在聚类过程中,咱们首先须要确定聚类的个数 k。依据肘部法令和轮廓系数法令,咱们得出最终抉择 k = 5 为较为适合的聚类数目。通过 SPSS Modeler 的 K -means 节点进行计算,失去了以下聚类详情、聚类类别和散点图后果。

聚类详情

聚类类别

通过分类后果咱们不难看出, 同类省份基本上是相邻省份, 或是区域类型 (沿海、内陆)类似的省份,对于同类省份,咱们能够采取类似的管理制度,使同等级省份失去更好的倒退,也能够利用政策形式让高等级省份带动低等级省份倒退。

CHAID 决策树

在进行完 K -means 聚类分析后,为了更好地理解各个类别的特色和关系,本文应用 CHAID 决策树算法对数据集 GDP 的影响因素进行进一步的剖析。首先应用 SPSS Modeler 的 CHAID 节点进行计算,失去以下变量重要性和决策树后果。

变量重要性

在 CHAID 决策树算法中,咱们应用卡方值(χ2)来表征每个变量的重要性。具体而言,卡方值越大,则该变量在分类中起到的作用越大。在本文的剖析中,最具备代表性的变量是园地、农用地和交通用地比重。

决策树后果

通过 CHAID 决策树算法,咱们失去了以下的决策树模型。其中每个叶子节点代表一类,而每个外部节点蕴含了一个决策规定,用于判断不同属性值的记录应该属于哪一个分支。在决策树中房地产用地比重、建设用地比重和城市扩张水平等变量对分类后果有较大的影响。

模型误差

为了测验 CHAID 决策树模型的性能,咱们采纳随机抽样的办法将数据集分为训练集和测试集,而后利用训练集来训练模型,并应用测试集来验证模型的预测精度。

CART 决策树:

除了应用 CHAID 决策树算法外,本文还采纳了 CART 决策树算法对数据进行建模。通过 SPSS Modeler 的 C &RT 节点进行计算,失去以下变量重要性和决策树构造。
 

变量重要性

在 CART 决策树算法中,咱们应用基尼指数(Gini Index)来掂量每个变量的重要性。具体而言,基尼指数越小,则该变量在分类中起到的作用越大。在本文的剖析中,最具备代表性的变量是交通、修建和工矿用地面积。

决策树构造

通过 CART 决策树算法,咱们失去了以下的决策树模型。在该模型中,每个外部节点代表一个判断规定,而每个叶子节点代表一个分类。最终的分类后果与 CHAID 决策树模型比拟类似,也可提供对土地利用治理的一些启发。

模型误差后果:

同样采纳随机抽样的办法将数据集分为训练集和测试集,应用训练集训练模型,并应用测试集验证模型预测的准确性。

论断:

最终咱们失去了以下后果文件:

本文旨在利用 SPSS Modeler,采纳 K -means(K- 均值)聚类、CHAID、CART 决策树等办法,对 31 个省市的土地利用状况数据进行剖析和建模,并为迷信无效的土地利用布局和管理策略提供参考。通过聚类和决策树剖析,咱们得出以下论断:

1. 不同省市的土地利用存在显著差别,按次要利用类型可分为 5 类;

2. 交通、建筑用地面积比重是次要影响土地利用的因素;

3. 通过 CHAID 和 CART 决策树算法,咱们能够较准确地对不同地区的土地利用进行分类,并提出相应的治理倡议。

本文的钻研论断对于全国土地资源的利用和治理具备肯定的参考价值,其办法也能够在其余畛域中失去利用和推广。


最受欢迎的见解

1. R 语言 k -Shape 算法股票价格工夫序列聚类

2. R 语言基于温度对城市档次聚类、kmean 聚类、主成分剖析和 Voronoi 图

3. R 语言对用电负荷工夫序列数据进行 K -medoids 聚类建模和 GAM 回归

4. r 语言鸢尾花 iris 数据集的档次聚类

5.Python Monte Carlo K-Means 聚类实战

6. 用 R 进行网站评论文本开掘聚类

7. R 语言 KMEANS 均值聚类和档次聚类:亚洲国家地区生存幸福品质异同可视化 **

8.PYTHON 用户散失数据挖掘:建设逻辑回归、XGBOOST、随机森林、决策树、反对向量机、奢侈贝叶斯模型和 KMEANS 聚类用户画像

9. R 语言基于 Keras 的小数据集深度学习图像分类

正文完
 0