关于数据挖掘:R语言回归anova方差分析相关性分析-精品购物指南调研数据可视化附代码数据

35次阅读

共计 5232 个字符,预计需要花费 14 分钟才能阅读完成。

全文链接:http://tecdat.cn/?p=30990

最近咱们被客户要求撰写对于回归、anova 方差分析、相关性剖析的钻研报告,包含一些图形和统计输入。

在剖析时,咱们向客户演示了用 R 语言回归、anova 方差分析、相关性剖析能够提供的内容

第一节 钻研背景与目标

《精品购物指南》是中国外乡经营规模最大、最具影响力的时尚媒体品牌,1999 年《精品购物指南》即进入全国报业广告十强,2005~2007 间断三年取得国家新闻出版总署颁布的“全国生存服务类报纸竞争力 10 强”,并蝉联第一。2013 年,《精品购物指南》被国家新闻出版广电总局评为“全国百强报纸”。

本钻研应用对《精品购物指南》所做的一次调查结果作为本次案例剖析的数据。试图剖析目前浏览《精品购物指南》的群体特色,以及影响浏览《精品购物指南》的工夫的因素, 从而更好地对受众群体和市场做出剖析。

第二节描述性统计

1. 数据预处理




## 变量赋值
colnames(data)=c(
  "编号",
  "性别",
  "年龄",
  "婚姻状况",
  "受教育水平",
  "职业或身份",
  "集体月平均收入",
  "报摊购买",
  "集体订阅",
  "单位订阅",
  "赠阅",
  "借阅别人",
  "其余",
  "下班途中",
  "上班途中",
  "午休工夫",
  "逛衔购物时",
  "不定时",
  "对《精品购物指南》的零购状况",
  "家人是否会揭示购买《精品》",
  "是第几抉择",
  "家人是否浏览《精品》",
  "","",
  "始终购买 (或订阅) 本报(习惯)",
  "豪华版内容吸引人",
  "一般版文章吸引人",
  "查找广告信息",
  "加入读者乐园版的流动",
  "逛商场购物须要",
  "价格便宜",
  "没有什么起因想起来就买",
  "其余",
  "住所",
  "工作场合",
  "车站或乘车道路",
  "娱乐场所",
  "其余场合",
  "多少人浏览同一份报纸",
  "浏览《精品》的工夫",
  "每天读报工夫",
  "对我生产有领导",
  "进步我的生存品位和品位",
  "信息实用性强",
  "关注社会新闻",
  "信息量大",
  "信息品质高",
  "报道畛域全面",
  "内容贴近市场",
  "寻找有用的信息和广告",
  "放松自我",
  "通俗易懂",
  "广告信息丰盛",
  "版面编排正当",
  "售价正当",
  "订阅或零购不便",
  "其余",
  "均匀每月浏览几期《精品》",
  "首先观赏豪华版",
  "先看题目,再拣有意思的看",
  "我只看本人喜爱的固定栏目",
  "看完喜爱的文章,再浏览其余内容",
  "只查找对本人有用的信息",
  "无目的地翻阅报纸",
  "如果未能看到某一期《精品》",
  "可能浏览完《精品》内容",
  "封面要闻",
  "百姓生活新闻",
  "北京都市新闻",
  "生产新闻",
  "读者乐园",
  "体坛新闻",
  "关注足球",
  "篮球时空",
  "绿茵评说",
  "精品回顾",
  "文化资讯",
  "影视介绍",
  "读书生存",
  "音乐欣赏",
  "外企专递",
  "留学必备",
  "充电课堂",
  "人才聚焦",
  "处世情感",
  "衰弱",
  "美食",
  "休闲游览",
  "保险",
  "律师",
  "百货新品",
  "休闲宠物",
  "户外休闲",
  "美食",
  "家庭保健",
  "超市 SHOPPER"
  ,"新品试验"
  ,"样品透视"
  ,"汽车时代"
  ,"电脑"
  ,"市场行情"
  ,"通信网络"
  ,"楼市了望"
  ,"房产金融"
  ,"政策扫描"
  ,"家具世界"
  ,"家装热点"
  ,"选材指南"
  ,"饰品快递"
  ,"十分男人"
  ,"特地女人"
  ,"新新人类"
  ,"网络家庭"
  ,"扮美家居"
  ,"今日妈咪"
  ,"选题大众化"
  ,"信息实用性强"
  ,"可读性强"
  ,"帮忙我生产抉择"
  ,"趣味性强"
  ,"报道畛域全面"
  ,"帮忙我理解市场行情"
  ,"放松自我"
  ,"文字柔美"
  ,"观点新鲜"
  ,"版式活跃"
  ,"品位鄙俗"
  ,"格调突出"
  ,"广告内容丰盛"
  ,"其余"
  ,"招商展览"
  ,"电脑"
  ,"通信"
  ,"汽车"
  ,"房地产"
  ,"家电"
  ,"食品酒类"
  ,"游览娱乐"
  ,"商场饭店"
  ,"服装服饰"
  ,"美容用品"
  ,"保健品"
  ,"医疗器械"
  ,"家居用品"
  ,"航空订票"
  ,"招生"
  ,"人才招聘"
  ,"公益广告"
  ,"文化用品"
  ,"屋宇祖赁"
  ,"金融证券"
  ,"发行广告"
  ,"其余"
  ,"广告对于生产是否有帮忙"
  ,"广告数量适中"
  ,"广告信息丰盛"
  ,"广告信息及时"
  ,"广告设计新鲜"
  ,

删除缺失

data=complete.cases(data)

2. 绘制不同变量之间的关系

  geom_point() + 
    geom_smooth(method=method, ...)

从每个变量的直方图能够看到变量的大略散布状况。绘制各个变量的饼图能够看到根本人口信息的各个取值的所占的百分比。


点击题目查阅往期内容

PYTHON 链家租房数据分析:岭回归、LASSO、随机森林、XGBOOST、KERAS 神经网络、KMEANS 聚类、天文可视化

左右滑动查看更多

01

02

03

04

第三节 回归,方差分析与模型比拟

1. 相关性剖析

for(i in 1:ncol(data))datacor[,i]=as.numeric(data[,i])

#数据归一化

data=scale(datacor)

查看性别和浏览《精品》的工夫之间是否有相干关系

cor.test(datacor$"性别",  
         datacor$"浏览《精品》的工夫")
##  
##  Pearson's product-moment correlation  
##  
## data:  datacor$ 性别 and datacor$"浏览《精品》的工夫"  
## t = 0.63616, df = 1995, p-value = 0.5247  
## alternative hypothesis: true correlation is not equal to 0  
## 95 percent confidence interval:  
##  -0.02964101  0.05806894  
## sample estimates:  
##        cor  
## 0.01424136

测验的后果是,因为 P =0.5247> 0.05,因而在 0.05 的显署性程度下,承受原假如,认为两者之间不具备相干关系。

查看婚姻状况和浏览《精品》的工夫之间是否具备相干关系



cor.test(datacor$"婚姻状况",  
         datacor$"浏览《精品》的工夫")
##  
##  Pearson's product-moment correlation  
##  
## data:  datacor$ 婚姻状况 and datacor$"浏览《精品》的工夫"  
## t = -1.7215, df = 1995, p-value = 0.08531  
## alternative hypothesis: true correlation is not equal to 0  
## 95 percent confidence interval:  
##  -0.082238962  0.005358859  
## sample estimates:  
##         cor  
## -0.03851404

测验的后果是,因为 P =0.08531> 0.05,因而在 0.05 的显署性程度下,所以承受原假如,认为两者之间不具备相干关系

查看受教育水平和浏览《精品》的工夫之间是否具备相干关系


cor.test(datacor$"受教育水平",  
         datacor$"浏览《精品》的工夫")

##  
##  Pearson's product-moment correlation  
##  
## data:  datacor$ 受教育水平 and datacor$"浏览《精品》的工夫"  
## t = -0.71111, df = 1995, p-value = 0.4771  
## alternative hypothesis: true correlation is not equal to 0  
## 95 percent confidence interval:  
##  -0.05974084  0.02796468  
## sample estimates:  
##        cor  
## -0.0159187

测验的后果是,因为 P =0.4771>0.05,因而在 0.05 的显著性程度下,承受原假如,认为两者之间不具备相干关系。

2. 回归剖析

查看共线性关系

which(abs(cormatrix)>0.6,arr.ind = T)

##                              row col  
## 编号                           1   1  
## 性别                           2   2  
## 年龄                           3   3

从后果看,没有相关系数大于 0.6 的不同变量。因而,变量间不存在共线性问题。

回归剖析

summary(model)

从回归模型的后果来看,能够看被调查者的职业或身份, 家人是否浏览《精品》`, 以及豪华版内容是否吸引人等因素对被考察对象否浏览《精品》的工夫有比拟大的影响,p 值小于 0.05,因而该变量对被调查者抉择去看报纸有显著的影响。

3. 模型筛选与比拟

无常数项模型拟合

回归模型校对

利用 qqPlot()函数提供的正态假设检验办法,它画出了在 n -p- 1 个自由度的 t 散布下的学生化残差图形,再配合 Shapiro 测验得出检测后果,而 Shapiro 样本量的大小范畴 配合下图能够发现除了 Providence,所有的点都离直线很近,都落在置信区间内,这表明与正态性假相符。

library(car)  
qqPlot(model2,labels = row.names(datacor))

方差齐性

利用残差绘制曲线图并配合 Durbin-Watson 测验,此测验办法可能检测误差的序列相关性,再配合下表测验后果显著性为 0.7604 示意承受原假如,因而误差项独立性测验通过。

dwtest(model2)

##  
##  Durbin-Watson test  
##  
## data:  model2  
## DW = 2.0242, p-value = 0.7604  
## alternative hypothesis: true autocorrelation is greater than 0

方差分析

所有变量的 p 值都小于 0.05,阐明在 0.05 的显著程度上,不同特色的被考察对象的浏览精品工夫之间有显著差异。



点击文末 “浏览原文”

获取全文残缺代码数据资料。

本文选自《R 语言回归、anova 方差分析、相关性剖析《精品购物指南》调研数据可视化》。

点击题目查阅往期内容

PYTHON 链家租房数据分析:岭回归、LASSO、随机森林、XGBOOST、KERAS 神经网络、KMEANS 聚类、天文可视化
R 语言狭义线性模型 (GLM)、全子集回归模型抉择、测验剖析全国风向气象数据
R 语言用 Rshiny 摸索 lme4 狭义线性混合模型(GLMM)和线性混合模型(LMM)
R 语言用潜类别混合效应模型(Latent Class Mixed Model ,LCMM) 剖析老年痴呆年龄数据
R 语言贝叶斯狭义线性混合(多层次 / 程度 / 嵌套)模型 GLMM、逻辑回归剖析教育留级影响因素数据 R 语言预计多元标记的潜过程混合效应模型(lcmm)剖析心理测试的认知过程
R 语言因子实验设计 nlme 拟合非线性混合模型剖析有机农业施氮程度
R 语言非线性混合效应 NLME 模型 (固定效应 & 随机效应) 反抗哮喘药物茶碱动力学钻研
R 语言用线性混合效应(多程度 / 档次 / 嵌套)模型剖析腔调高下与礼貌态度的关系
R 语言 LME4 混合效应模型钻研老师的受欢迎水平 R 语言 nlme、nlmer、lme4 用(非)线性混合模型 non-linear mixed model 剖析藻类数据实例
R 语言混合线性模型、多层次模型、回归模型剖析学生均匀问题 GPA 和可视化
R 语言线性混合效应模型(固定效应 & 随机效应)和交互可视化 3 案例
R 语言用 lme4 多层次(混合效应)狭义线性模型(GLM),逻辑回归剖析教育留级考察数据 R 语言 线性混合效应模型实战案例
R 语言混合效应逻辑回归(mixed effects logistic)模型剖析肺癌数据
R 语言如何用潜类别混合效应模型(LCMM)剖析抑郁症状
R 语言基于 copula 的贝叶斯分层混合模型的诊断准确性钻研
R 语言建设和可视化混合效应模型 mixed effect model
R 语言 LME4 混合效应模型钻研老师的受欢迎水平
R 语言 线性混合效应模型实战案例
R 语言用 Rshiny 摸索 lme4 狭义线性混合模型(GLMM)和线性混合模型(LMM)
R 语言基于 copula 的贝叶斯分层混合模型的诊断准确性钻研
R 语言如何解决线性混合模型中畸形拟合 (Singular fit) 的问题
基于 R 语言的 lmer 混合线性回归模型
R 语言用 WinBUGS 软件对学术能力测验建设档次(分层)贝叶斯模型
R 语言分层线性模型案例
R 语言用 WinBUGS 软件对学术能力测验(SAT)建设分层模型
应用 SAS,Stata,HLM,R,SPSS 和 Mplus 的分层线性模型 HLM
R 语言用 WinBUGS 软件对学术能力测验建设档次(分层)贝叶斯模型
SPSS 中的多层(等级)线性模型 Multilevel linear models 钻研整容手术数据
用 SPSS 预计 HLM 多层(档次)线性模型模型

正文完
 0