关于数据挖掘:SPSS用K均值聚类KMEANS决策树逻辑回归和T检验研究通勤出行交通方式选择的影响因素调查数据分析附代码数据

28次阅读

共计 3520 个字符,预计需要花费 9 分钟才能阅读完成。

原文下载链接:http://tecdat.cn/?p=27587

最近咱们被客户要求撰写对于通勤出行的钻研报告,包含一些图形和统计输入。

某交通工程业余博士生想要钻研不同因素对通勤交通形式抉择的影响,对成都两个大型小区(高端和一般)居民别离进行了出行考察,各考察了 300 人

其中

Distance:居住地离下班地的间隔(公里)

Pincome:集体年收入(万元)

Hincome:家庭年收入(万元)

Age:年龄

Gender:性别(0:女;1:男)

Car:家庭领有汽车的数量

Education:教育程度(1:初中及以下;2:高中;3:专科;4:本科;5:研究生)

Job:工作类型(1:公司职员;2:工厂工人;3:公务员;4:个体;5:事业单位;6:其余)

People:家里人口数量

Children:家里未成年人数量

Housing:屋宇领有类型(0:租房;1:买房)

Area:屋宇居住面积(平方米)

Mode:次要通勤出行形式(1:汽车;2:公共交通;3:电动自行车;4:其余)

然而小区的编号遗记记录下来。

工作:

  1. 判断每个变量时数值型变量还是分类型变量,数组型的计算其均值和方差,分类型的列出每类的频率。

数值型变量为:

Distance:居住地离下班地的间隔(公里)

Pincome:集体年收入(万元)

Hincome:家庭年收入(万元)

Age:年龄

Car:家庭领有汽车的数量

People:家里人口数量

Children:家里未成年人数量

Area:屋宇居住面积(平方米)


点击题目查阅往期内容

R 语言随机森林 RandomForest、逻辑回归 Logisitc 预测心脏病数据和可视化剖析

左右滑动查看更多

01

02

03

04

分类型变量为:

Gender:性别(0:女;1:男)

Education:教育程度(1:初中及以下;2:高中;3:专科;4:本科;5:研究生)

Job:工作类型(1:公司职员;2:工厂工人;3:公务员;4:个体;5:事业单位;6:其余)

Housing:屋宇领有类型(0:租房;1:买房)

Mode:次要通勤出行形式(1:汽车;2:公共交通;3:电动自行车;4:其余)

分类型变量为:

Gender:性别(0:女;1:男)

Education:教育程度(1:初中及以下;2:高中;3:专科;4:本科;5:研究生)

Job:工作类型(1:公司职员;2:工厂工人;3:公务员;4:个体;5:事业单位;6:其余)

Housing:屋宇领有类型(0:租房;1:买房)

Mode:次要通勤出行形式(1:汽车;2:公共交通;3:电动自行车;4:其余)

  1. 判断每个受访者所在的小区。

    依据居住地间隔,咱们应用 kmean 聚类将样本分成 2 个类别,并保留后果到小区变量中。

    后果如图所示。

    聚类核心后果如下

    每个样本的聚类信息:

  2. 剖析不同小区居民的均匀出行间隔、均匀家庭收入、年龄散布、性别散布、家庭人口数和受教育水平有什么区别吗?

从均值比拟的后果来来看,第 1 个类别的工作里小区工作间隔较短,第三个类别年龄较小,第一个小区家庭人口较大,教育程度第四个小区较低。

而后对不同聚类类别的数据进行独立样本 t 测验。

由上表中的后果:distance 的 sig>0.05,可知:distance 无显著区别。

  1. 对每个小区别离建模(逻辑回归和决策树),看哪个模型对出行形式抉择的拟合更好(比拟模型在测验样本里的体现,而不是训练样本),并剖析各个变量如何影响通勤交通形式的抉择。

首先对 1 区的样本进行决策树模型

能够看到间隔 支出、家庭人口数和性别对出行形式有较大的影响,男性出行以电动车为主,女性也有一部分以公交出行为主,从家庭人口数来看,大于 2 人的家庭出行以公交车为主。

而后应用逻辑回归进行预测

由后果来看整个逻辑回归的表达式是显著的;由“似然比测验”表格可知所有变量的显著性程度均小于 0.05,可知自变量对于因变量 mode 都是显著的;而在参数估计中可得,自变量的显著性程度较低,即这些变量和 mode 是有关系的。

对 2 区出行数据进行决策树模型剖析

从后果来看,决策树分类模型能够看到区 2 的出行形式次要受到间隔的影响。若间隔较大,则出行形式以汽车和电瓶车为主,若间隔较小,则以公交车为主。

对区 2 的出行数据进行逻辑回归

由后果来看整个逻辑回归的表达式是显著的;由“似然比测验”表格可知所有变量的显著性程度均小于 0.05,可知自变量对于因变量 mode 都是显著的;而在参数估计中可得,自变量的显著性程度较低,即这些变量和 mode 是有关系的。

点击文末 “浏览原文”

获取全文残缺材料。

本文选自《SPSS 用 K 均值聚类 KMEANS、决策树、逻辑回归和 T 测验钻研不同因素对通勤出行交通形式抉择的影响考察数据分析》。

点击题目查阅往期内容

数据分享 | R 语言主成分 PCA、因子分析、聚类对地区经济钻研剖析重庆市经济指标
数据分享 | R 语言用主成分 PCA、逻辑回归、决策树、随机森林剖析心脏病数据并高维可视化
R 语言逻辑回归 logistic 模型剖析泰坦尼克 titanic 数据集预测生还状况 R 语言是否对二分连续变量执行逻辑回归
R 语言用 lme4 多层次(混合效应)狭义线性模型(GLM),逻辑回归剖析教育留级考察数据
R 语言随机森林 RandomForest、逻辑回归 Logisitc 预测心脏病数据和可视化剖析
R 语言基于 Bagging 分类的逻辑回归 (Logistic Regression)、决策树、森林剖析心脏病患者
R 语言逻辑回归(Logistic 回归)模型分类预测病人冠心病危险
R 语言用部分加权回归(Lowess) 对 logistic 逻辑回归诊断和残差剖析 R 语言用主成分 PCA、逻辑回归、决策树、随机森林剖析心脏病数据并高维可视化
R 语言用线性模型进行臭氧预测:加权泊松回归,一般最小二乘,加权负二项式模型,多重插补缺失值 R 语言 Bootstrap 的岭回归和自适应 LASSO 回归可视化
R 语言中回归和分类模型抉择的性能指标
R 语言多元工夫序列滚动预测:ARIMA、回归、ARIMAX 模型剖析
R 语言用 lme4 多层次(混合效应)狭义线性模型(GLM),逻辑回归剖析教育留级考察数据
R 语言计量经济学:虚构变量 (哑变量) 在线性回归模型中的利用
R 语言 线性混合效应模型实战案例
R 语言混合效应逻辑回归(mixed effects logistic)模型剖析肺癌数据
R 语言如何用潜类别混合效应模型(LCMM)剖析抑郁症状
R 语言基于 copula 的贝叶斯分层混合模型的诊断准确性钻研
R 语言建设和可视化混合效应模型 mixed effect model
R 语言 LME4 混合效应模型钻研老师的受欢迎水平
R 语言 线性混合效应模型实战案例
R 语言用 Rshiny 摸索 lme4 狭义线性混合模型(GLMM)和线性混合模型(LMM)
R 语言基于 copula 的贝叶斯分层混合模型的诊断准确性钻研
R 语言如何解决线性混合模型中畸形拟合 (Singular fit) 的问题
基于 R 语言的 lmer 混合线性回归模型
R 语言用 WinBUGS 软件对学术能力测验建设档次(分层)贝叶斯模型
R 语言分层线性模型案例
R 语言用 WinBUGS 软件对学术能力测验(SAT)建设分层模型
应用 SAS,Stata,HLM,R,SPSS 和 Mplus 的分层线性模型 HLM
R 语言用 WinBUGS 软件对学术能力测验建设档次(分层)贝叶斯模型
SPSS 中的多层(等级)线性模型 Multilevel linear models 钻研整容手术数据
用 SPSS 预计 HLM 多层(档次)线性模型模型 R 语言高维数据的主成分 pca、t-SNE 算法降维与可视化剖析案例报告
R 语言惩办 logistic 逻辑回归(LASSO, 岭回归)高维变量抉择的分类模型案例
R 语言有 RStan 的多维验证性因子分析(CFA)
主成分剖析 (PCA) 原理及 R 语言实现及剖析实例
R 语言无监督学习:PCA 主成分剖析可视化
R 语言应用 Metropolis- Hasting 抽样算法进行逻辑回归
R 语言多元 Logistic 逻辑回归 利用案例
R 语言自适应 LASSO 多项式回归、二元逻辑回归和岭回归利用剖析
R 语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测
R 语言基于树的办法:决策树,随机森林,Bagging,加强树
spss modeler 用决策树神经网络预测 ST 的股票
R 语言中自编基尼系数的 CART 回归决策树的实现
python 在 Scikit-learn 中用决策树和随机森林预测 NBA 获胜者
matlab 应用分位数随机森林(QRF)回归树检测异样值
基于随机森林、svm、CNN 机器学习的风控欺诈辨认模型
R 语言惩办 logistic 逻辑回归(LASSO, 岭回归)高维变量抉择的分类模型案例
R 语言用规范最小二乘 OLS,狭义相加模型 GAM,样条函数进行逻辑回归 LOGISTIC 分

正文完
 0