关于数据挖掘:SPSS-Modeler分析物流发货明细数据KMEANSK均值聚类和Apriori关联规则挖掘

全文链接：http://tecdat.cn/?p=32633

原文出处：拓端数据部落公众号

物流发货明细数据在古代物流业中扮演着至关重要的角色。通过对这些数据进行开掘和剖析，咱们能够发现隐含在背地的供应链经营法则和商业模式，从而领导企业在物流策略、老本治理和客户服务等方面做出更加迷信和无效的决策。

SPSS Modeler是一款功能强大、界面敌对的数据挖掘和剖析工具，能够帮忙企业对物流发货明细数据进行深刻和精确的开掘剖析，进步数据价值和经营效率。

本文将以SPSS Modeler帮忙客户剖析物流发货明细数据，介绍如何应用SPSS Modeler对物流发货明细数据进行聚类分析和关联规定开掘，并剖析得出无益的论断和倡议，为企业的物流经营和倒退提供参考与反对。

数据的预处理

本钻研的数据是一组对于物流的发货明细，数据包含以下字段：我的项目、指令日期、始发省、始发市、目标省、目标市、收货人单位、品名、数量、签收工夫、签收数量、拒收数量和拒收起因。

对数据进行预处理：

（1）补充缺失值。对没有记录的数据缺失采纳平均值法，以该字段的均匀分数填充。

（2）规范化数据。使用最小-最大规范化办法对数据进行规范化解决，将数据映射到[0,1]区间，计算公式如下。

其中：ymax为该字段的最大值；

ymin为该字段的最小值。

过程及后果剖析

（1）读取数据

抉择SPSS Modeler的Source-Excel-Data，在Data选项页中通过Import Files输入框选定Excel格局的成绩表文件，并点击Read Values 按钮，将所有数据读入，如图所示。

（2）K-Means 模型设置

抉择SPSS Modeler的Modeling-K-means，将K-Means模型节点增加进数据流来，双击K-Means图标，在弹出的对话框中抉择Model选项页，选项页中的参数解释如下：

1）Numbers of cluster：制订生成的聚类数目，这里设置为3.

2）Use Partitioned Data：如果用户定义了宰割数据集，抉择训练数据集作为建模数据集，并利用测试数据集对模型进行评估。

持续抉择对话框中的Expert选项页，如图所示，对该选项页中的参数做一下设置：

Model选项：抉择Expert模式，示意将进行高级模式的抉择。

Stop on选项：抉择custom选项批改迭代终止的条件：

1）Maximum iterations（最大迭代数）：该选项容许在迭代制订次数后终止训练，这里设置为20.

2）Change tolerance（差别容忍度）：该选项容许在一次迭代中质心之间的最大差别小于制订程度时终止训练。

（3）执行和输入

设置实现后，选中Execute 按钮，即可失去执行并察看到后果。点击VIEW选项卡，能够以图表的模式来显示模型的统计信息以及各个属性在各簇中的散布信息。

（4）聚类后果

结果表明：簇1和2中的签收数量较低，簇5中的签收数量个别，簇4中的签收数量最低，可见，大部分样本的签收数量处于中等水平；各变量在各簇中的显著水平均较大，表明不同聚类簇的签收数量的分化程度较高，差别显著。

簇1

簇2

簇3

簇4

簇5

从每个聚类簇的状况来看，签收数量最多的是第5个簇，该簇中的最多的始发地是广东深圳，签收数量达到了2833件，其次是上海，签收数量达到了1287。同时从后果能够看到四川成都的签收数量最低，阐明物流的集中地集中在广东深圳上海等地。

关联规定开掘

本文别离用Apriori算法对数据进行解决开掘，具体后果如下所示。

（1）Apriori算法

尽管 Apriori 算法能够间接开掘生成表中的交易数据集，然而为了关联开掘其余算法的须要先把交易数据集转换成剖析数据集，构建的数据流如图所示。

图 1 商品关联规定 Apriori 算法开掘流图

通过格局转换，发现数据源中共有二十种商品，设最低条件反对度为15%，最小规定置信度为30%，最大前项数为5，抉择专家模式，挖掘出大类商品的15条关联规定，如图所示。生成的38条规定如下所示：

剖析及倡议: 通过图能够清晰的看到深圳、广东、北京的物流订单比拟多，倡议物流企业能够加大对这些地区的工作人员安顿，由上述后果可知，发往北京和发往广东深圳的物流运单别离占总运复数的51.515%，41.414%，由此可见，北京山东深圳三个目的地的关联度较高，能够将这些地点的仓库摆放在一块，从而减少效率。同时能够看到发往北京的物品中呈现了较多的三星 SM-W2016商品。因而，能够将这些商品交由专人来负责来提高效率。

最初咱们失去了以下后果和文件：

最受欢迎的见解

1.R语言k-Shape算法股票价格工夫序列聚类

2.R语言基于温度对城市档次聚类、kmean聚类、主成分剖析和Voronoi图

3.R语言对用电负荷工夫序列数据进行K-medoids聚类建模和GAM回归

4.r语言鸢尾花iris数据集的档次聚类

5.Python Monte Carlo K-Means聚类实战

6.用R进行网站评论文本开掘聚类

7.R语言KMEANS均值聚类和档次聚类：亚洲国家地区生存幸福品质异同可视化**

8.PYTHON用户散失数据挖掘：建设逻辑回归、XGBOOST、随机森林、决策树、反对向量机、奢侈贝叶斯模型和KMEANS聚类用户画像

9.R语言基于Keras的小数据集深度学习图像分类