关于数据挖掘:Spss用K均值聚类Kmeans决策树逻辑回归和T检验研究不同因素对通勤出行交通方式选择的影响调查数据分析

5次阅读

共计 2046 个字符,预计需要花费 6 分钟才能阅读完成。

原文链接:http://tecdat.cn/?p=27587

某交通工程业余博士生想要钻研不同因素对通勤交通形式抉择的影响,对成都两个大型小区(高端和一般)居民别离进行了出行考察,各考察了 300 人。

其中

Distance:居住地离下班地的间隔(公里)

Pincome:集体年收入(万元)

Hincome:家庭年收入(万元)

Age:年龄

Gender:性别(0:女;1:男)

Car:家庭领有汽车的数量

Education:教育程度(1:初中及以下;2:高中;3:专科;4:本科;5:研究生)

Job:工作类型(1:公司职员;2:工厂工人;3:公务员;4:个体;5:事业单位;6:其余)

People:家里人口数量

Children:家里未成年人数量

Housing:屋宇领有类型(0:租房;1:买房)

Area:屋宇居住面积(平方米)

Mode:次要通勤出行形式(1:汽车;2:公共交通;3:电动自行车;4:其余)

然而小区的编号遗记记录下来。

工作:

  1. 判断每个变量时数值型变量还是分类型变量,数组型的计算其均值和方差,分类型的列出每类的频率。

数值型变量为:

Distance:居住地离下班地的间隔(公里)

Pincome:集体年收入(万元)

Hincome:家庭年收入(万元)

Age:年龄

Car:家庭领有汽车的数量

People:家里人口数量

Children:家里未成年人数量

Area:屋宇居住面积(平方米)

分类型变量为:

Gender:性别(0:女;1:男)

Education:教育程度(1:初中及以下;2:高中;3:专科;4:本科;5:研究生)

Job:工作类型(1:公司职员;2:工厂工人;3:公务员;4:个体;5:事业单位;6:其余)

Housing:屋宇领有类型(0:租房;1:买房)

Mode:次要通勤出行形式(1:汽车;2:公共交通;3:电动自行车;4:其余)

分类型变量为:

Gender:性别(0:女;1:男)

Education:教育程度(1:初中及以下;2:高中;3:专科;4:本科;5:研究生)

Job:工作类型(1:公司职员;2:工厂工人;3:公务员;4:个体;5:事业单位;6:其余)

Housing:屋宇领有类型(0:租房;1:买房)

Mode:次要通勤出行形式(1:汽车;2:公共交通;3:电动自行车;4:其余)

  1. 
    判断每个受访者所在的小区。=============
    

依据居住地间隔,咱们应用 kmean 聚类将样本分成 2 个类别,并保留后果到小区变量中。

后果如图所示。

聚类核心后果如下

 

每个样本的聚类信息:

  1. 
    剖析不同小区居民的均匀出行间隔、均匀家庭收入、年龄散布、性别散布、家庭人口数和受教育水平有什么区别吗?---------------------------------------------------
    

从均值比拟的后果来来看,第 1 个类别的工作里小区工作间隔较短,第三个类别年龄较小,第一个小区家庭人口较大,教育程度第四个小区较低。

而后对不同聚类类别的数据进行独立样本 t 测验。

由上表中的后果:distance 的 sig>0.05,可知:distance 无显著区别。

  1. 对每个小区别离建模(逻辑回归和决策树),看哪个模型对出行形式抉择的拟合更好(比拟模型在测验样本里的体现,而不是训练样本),并剖析各个变量如何影响通勤交通形式的抉择。

首先对 1 区的样本进行决策树模型

能够看到间隔 支出、家庭人口数和性别对出行形式有较大的影响,男性出行以电动车为主,女性也有一部分以公交出行为主,从家庭人口数来看,大于 2 人的家庭出行以公交车为主。

而后应用逻辑回归进行预测

由后果来看整个逻辑回归的表达式是显著的;由“似然比测验”表格可知所有变量的显著性程度均小于 0.05,可知自变量对于因变量 mode 都是显著的;而在参数估计中可得,自变量的显著性程度较低,即这些变量和 mode 是有关系的。

对 2 区出行数据进行决策树模型剖析

 

 从后果来看,决策树分类模型能够看到区 2 的出行形式次要受到间隔的影响。若间隔较大,则出行形式以汽车和电瓶车为主,若间隔较小,则以公交车为主。

对区 2 的出行数据进行逻辑回归

  由后果来看整个逻辑回归的表达式是显著的;由“似然比测验”表格可知所有变量的显著性程度均小于 0.05,可知自变量对于因变量 mode 都是显著的;而在参数估计中可得,自变量的显著性程度较低,即这些变量和 mode 是有关系的。


 

最受欢迎的见解

1.R 语言多元 Logistic 逻辑回归 利用案例

2. 面板平滑转移回归 (PSTR) 剖析案例实现剖析案例实现 ”)

3.matlab 中的偏最小二乘回归(PLSR)和主成分回归(PCR)

4.R 语言泊松 Poisson 回归模型剖析案例

5.R 语言混合效应逻辑回归 Logistic 模型剖析肺癌

6.r 语言中对 LASSO 回归,Ridge 岭回归和 Elastic Net 模型实现

7.R 语言逻辑回归、Naive Bayes 贝叶斯、决策树、随机森林算法预测心脏病

8.python 用线性回归预测股票价格

9.R 语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测

正文完
 0