原文下载链接:http://tecdat.cn/?p=27587
最近咱们被客户要求撰写对于通勤出行的钻研报告,包含一些图形和统计输入。
某交通工程业余博士生想要钻研不同因素对通勤交通形式抉择的影响,对成都两个大型小区(高端和一般)居民别离进行了出行考察,各考察了300人
其中
Distance:居住地离下班地的间隔(公里)
Pincome:集体年收入(万元)
Hincome:家庭年收入(万元)
Age:年龄
Gender:性别(0:女;1:男)
Car:家庭领有汽车的数量
Education:教育程度(1:初中及以下;2:高中;3:专科;4:本科;5:研究生)
Job:工作类型(1:公司职员;2:工厂工人;3:公务员;4:个体;5:事业单位;6:其余)
People:家里人口数量
Children:家里未成年人数量
Housing:屋宇领有类型(0:租房;1:买房)
Area:屋宇居住面积(平方米)
Mode:次要通勤出行形式(1:汽车;2:公共交通;3:电动自行车;4:其余)
然而小区的编号遗记记录下来。
工作:
- 判断每个变量时数值型变量还是分类型变量,数组型的计算其均值和方差,分类型的列出每类的频率。
数值型变量为:
Distance:居住地离下班地的间隔(公里)
Pincome:集体年收入(万元)
Hincome:家庭年收入(万元)
Age:年龄
Car:家庭领有汽车的数量
People:家里人口数量
Children:家里未成年人数量
Area:屋宇居住面积(平方米)
点击题目查阅往期内容
R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化剖析
左右滑动查看更多
01
02
03
04
分类型变量为:
Gender:性别(0:女;1:男)
Education:教育程度(1:初中及以下;2:高中;3:专科;4:本科;5:研究生)
Job:工作类型(1:公司职员;2:工厂工人;3:公务员;4:个体;5:事业单位;6:其余)
Housing:屋宇领有类型(0:租房;1:买房)
Mode:次要通勤出行形式(1:汽车;2:公共交通;3:电动自行车;4:其余)
分类型变量为:
Gender:性别(0:女;1:男)
Education:教育程度(1:初中及以下;2:高中;3:专科;4:本科;5:研究生)
Job:工作类型(1:公司职员;2:工厂工人;3:公务员;4:个体;5:事业单位;6:其余)
Housing:屋宇领有类型(0:租房;1:买房)
Mode:次要通勤出行形式(1:汽车;2:公共交通;3:电动自行车;4:其余)
判断每个受访者所在的小区。
依据居住地间隔 ,咱们应用kmean聚类将样本分成2个类别,并保留后果到小区变量中。
后果如图所示。
聚类核心后果如下
每个样本的聚类信息:
剖析不同小区居民的均匀出行间隔、均匀家庭收入、年龄散布、性别散布、家庭人口数和受教育水平有什么区别吗?
从均值比拟的后果来来看,第1个类别的工作里小区工作间隔较短,第三个类别年龄较小,第一个小区家庭人口较大,教育程度第四个小区较低。
而后对不同聚类类别的数据进行独立样本t测验。
由上表中的后果:distance的sig>0.05,可知:distance无显著区别。
- 对每个小区别离建模(逻辑回归和决策树),看哪个模型对出行形式抉择的拟合更好(比拟模型在测验样本里的体现,而不是训练样本),并剖析各个变量如何影响通勤交通形式的抉择。
首先对1区的样本进行决策树模型
能够看到间隔 支出、家庭人口数和性别对出行形式有较大的影响,男性出行以电动车为主,女性也有一部分以公交出行为主,从家庭人口数来看,大于2人的家庭出行以公交车为主。
而后应用逻辑回归进行预测
由后果来看整个逻辑回归的表达式是显著的;由“似然比测验”表格可知所有变量的显著性程度均小于0.05,可知自变量对于因变量mode都是显著的;而在参数估计中可得,自变量的显著性程度较低,即这些变量和mode是有关系的。
对2区出行数据进行决策树模型剖析
从后果来看,决策树分类模型能够看到区2的出行形式次要受到间隔的影响。若间隔较大,则出行形式以汽车和电瓶车为主,若间隔较小,则以公交车为主。
对区2的出行数据进行逻辑回归
由后果来看整个逻辑回归的表达式是显著的;由“似然比测验”表格可知所有变量的显著性程度均小于0.05,可知自变量对于因变量mode都是显著的;而在参数估计中可得,自变量的显著性程度较低,即这些变量和mode是有关系的。
点击文末 “浏览原文”
获取全文残缺材料。
本文选自《SPSS用K均值聚类KMEANS、决策树、逻辑回归和T测验钻研不同因素对通勤出行交通形式抉择的影响考察数据分析》。
点击题目查阅往期内容
数据分享|R语言主成分PCA、因子分析、聚类对地区经济钻研剖析重庆市经济指标
数据分享|R语言用主成分PCA、 逻辑回归、决策树、随机森林剖析心脏病数据并高维可视化
R语言逻辑回归logistic模型剖析泰坦尼克titanic数据集预测生还状况R语言是否对二分连续变量执行逻辑回归
R语言用lme4多层次(混合效应)狭义线性模型(GLM),逻辑回归剖析教育留级考察数据
R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化剖析
R语言基于Bagging分类的逻辑回归(Logistic Regression)、决策树、森林剖析心脏病患者
R语言逻辑回归(Logistic回归)模型分类预测病人冠心病危险
R语言用部分加权回归(Lowess)对logistic逻辑回归诊断和残差剖析R语言用主成分PCA、 逻辑回归、决策树、随机森林剖析心脏病数据并高维可视化
R语言用线性模型进行臭氧预测:加权泊松回归,一般最小二乘,加权负二项式模型,多重插补缺失值R语言Bootstrap的岭回归和自适应LASSO回归可视化
R语言中回归和分类模型抉择的性能指标
R语言多元工夫序列滚动预测:ARIMA、回归、ARIMAX模型剖析
R语言用lme4多层次(混合效应)狭义线性模型(GLM),逻辑回归剖析教育留级考察数据
R语言计量经济学:虚构变量(哑变量)在线性回归模型中的利用
R语言 线性混合效应模型实战案例
R语言混合效应逻辑回归(mixed effects logistic)模型剖析肺癌数据
R语言如何用潜类别混合效应模型(LCMM)剖析抑郁症状
R语言基于copula的贝叶斯分层混合模型的诊断准确性钻研
R语言建设和可视化混合效应模型mixed effect model
R语言LME4混合效应模型钻研老师的受欢迎水平
R语言 线性混合效应模型实战案例
R语言用Rshiny摸索lme4狭义线性混合模型(GLMM)和线性混合模型(LMM)
R语言基于copula的贝叶斯分层混合模型的诊断准确性钻研
R语言如何解决线性混合模型中畸形拟合(Singular fit)的问题
基于R语言的lmer混合线性回归模型
R语言用WinBUGS 软件对学术能力测验建设档次(分层)贝叶斯模型
R语言分层线性模型案例
R语言用WinBUGS 软件对学术能力测验(SAT)建设分层模型
应用SAS,Stata,HLM,R,SPSS和Mplus的分层线性模型HLM
R语言用WinBUGS 软件对学术能力测验建设档次(分层)贝叶斯模型
SPSS中的多层(等级)线性模型Multilevel linear models钻研整容手术数据
用SPSS预计HLM多层(档次)线性模型模型R语言高维数据的主成分pca、 t-SNE算法降维与可视化剖析案例报告
R语言惩办logistic逻辑回归(LASSO,岭回归)高维变量抉择的分类模型案例
R语言有RStan的多维验证性因子分析(CFA)
主成分剖析(PCA)原理及R语言实现及剖析实例
R语言无监督学习:PCA主成分剖析可视化
R语言应用Metropolis- Hasting抽样算法进行逻辑回归
R语言多元Logistic逻辑回归 利用案例
R语言自适应LASSO 多项式回归、二元逻辑回归和岭回归利用剖析
R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测
R语言基于树的办法:决策树,随机森林,Bagging,加强树
spss modeler用决策树神经网络预测ST的股票
R语言中自编基尼系数的CART回归决策树的实现
python在Scikit-learn中用决策树和随机森林预测NBA获胜者
matlab应用分位数随机森林(QRF)回归树检测异样值
基于随机森林、svm、CNN机器学习的风控欺诈辨认模型
R语言惩办logistic逻辑回归(LASSO,岭回归)高维变量抉择的分类模型案例
R语言用规范最小二乘OLS,狭义相加模型GAM ,样条函数进行逻辑回归LOGISTIC分