关于数据挖掘:R语言回归anova方差分析相关性分析-精品购物指南调研数据可视化

全文链接：http://tecdat.cn/?p=30990

原文出处：拓端数据部落公众号

第一节钻研背景与目标

《精品购物指南》是中国外乡经营规模最大、最具影响力的时尚媒体品牌，1999年《精品购物指南》即进入全国报业广告十强，2005～2007间断三年取得国家新闻出版总署颁布的“全国生存服务类报纸竞争力10强”，并蝉联第一。2013年，《精品购物指南》被国家新闻出版广电总局评为“全国百强报纸”。

在剖析时，咱们向客户演示了用R语言回归、anova方差分析、相关性剖析能够提供的内容。

本钻研应用对《精品购物指南》所做的一次调查结果作为本次案例剖析的数据。试图剖析目前浏览《精品购物指南》的群体特色，以及影响浏览《精品购物指南》的工夫的因素,从而更好地对受众群体和市场做出剖析。

第二节描述性统计

1. 数据预处理

##变量赋值colnames(data)=c(  "编号",  "性别",  "年龄",  "婚姻状况",  "受教育水平",  "职业或身份",  "集体月平均收入",  "报摊购买",  "集体订阅",  "单位订阅",  "赠阅",  "借阅别人",  "其余",  "下班途中",  "上班途中",  "午休工夫",  "逛衔购物时",  "不定时",  "对《精品购物指南》的零购状况",  "家人是否会揭示购买《精品》",  "是第几抉择",  "家人是否浏览《精品》",  "",  "",  "始终购买(或订阅)本报(习惯)",  "豪华版内容吸引人",  "一般版文章吸引人",  "查找广告信息",  "加入读者乐园版的流动",  "逛商场购物须要",  "价格便宜",  "没有什么起因想起来就买",  "其余",  "住所",  "工作场合",  "车站或乘车道路",  "娱乐场所",  "其余场合",  "多少人浏览同一份报纸",  "浏览《精品》的工夫",  "每天读报工夫",  "对我生产有领导",  "进步我的生存品位和品位",  "信息实用性强",  "关注社会新闻",  "信息量大",  "信息品质高",  "报道畛域全面",  "内容贴近市场",  "寻找有用的信息和广告",  "放松自我",  "通俗易懂",  "广告信息丰盛",  "版面编排正当",  "售价正当",  "订阅或零购不便",  "其余",  "均匀每月浏览几期《精品》",  "首先观赏豪华版",  "先看题目，再拣有意思的看",  "我只看本人喜爱的固定栏目",  "看完喜爱的文章，再浏览其余内容",  "只查找对本人有用的信息",  "无目的地翻阅报纸",  "如果未能看到某一期《精品》",  "可能浏览完《精品》内容",  "封面要闻",  "百姓生活新闻",  "北京都市新闻",  "生产新闻",  "读者乐园",  "体坛新闻",  "关注足球",  "篮球时空",  "绿茵评说",  "精品回顾",  "文化资讯",  "影视介绍",  "读书生存",  "音乐欣赏",  "外企专递",  "留学必备",  "充电课堂",  "人才聚焦",  "处世情感",  "衰弱",  "美食",  "休闲游览",  "保险",  "律师",  "百货新品",  "休闲宠物",  "户外休闲",  "美食",  "家庭保健",  "超市SHOPPER"  ,"新品试验"  ,"样品透视"  ,"汽车时代"  ,"电脑"  ,"市场行情"  ,"通信网络"  ,"楼市了望"  ,"房产金融"  ,"政策扫描"  ,"家具世界"  ,"家装热点"  ,"选材指南"  ,"饰品快递"  ,"十分男人"  ,"特地女人"  ,"新新人类"  ,"网络家庭"  ,"扮美家居"  ,"今日妈咪"  ,"选题大众化"  ,"信息实用性强"  ,"可读性强"  ,"帮忙我生产抉择"  ,"趣味性强"  ,"报道畛域全面"  ,"帮忙我理解市场行情"  ,"放松自我"  ,"文字柔美"  ,"观点新鲜"  ,"版式活跃"  ,"品位鄙俗"  ,"格调突出"  ,"广告内容丰盛"  ,"其余"  ,"招商展览"  ,"电脑"  ,"通信"  ,"汽车"  ,"房地产"  ,"家电"  ,"食品酒类"  ,"游览娱乐"  ,"商场饭店"  ,"服装服饰"  ,"美容用品"  ,"保健品"  ,"医疗器械"  ,"家居用品"  ,"航空订票"  ,"招生"  ,"人才招聘"  ,"公益广告"  ,"文化用品"  ,"屋宇祖赁"  ,"金融证券"  ,"发行广告"  ,"其余"  ,"广告对于生产是否有帮忙"  ,"广告数量适中"  ,"广告信息丰盛"  ,"广告信息及时"  ,"广告设计新鲜"  ,"广告内容属实"  ,"其余"  ,"是否理解精品的订阅服务"  ,"零购者"  ,"订户"  ," " ," v14")

删除缺失

data=complete.cases(data)

2.绘制不同变量之间的关系

  geom_point() +     geom_smooth(method=method, ...)

从每个变量的直方图能够看到变量的大略散布状况。绘制各个变量的饼图能够看到根本人口信息的各个取值的所占的百分比。

第三节回归，方差分析与模型比拟

1.相关性剖析

for(i in 1:ncol(data))datacor[,i]=as.numeric(data[,i])#数据归一化data=scale(datacor)

查看性别和浏览《精品》的工夫之间是否有相干关系

cor.test(datacor$"性别",           datacor$"浏览《精品》的工夫")##  ##  Pearson's product-moment correlation  ##  ## data:  datacor$性别 and datacor$"浏览《精品》的工夫"  ## t = 0.63616, df = 1995, p-value = 0.5247  ## alternative hypothesis: true correlation is not equal to 0  ## 95 percent confidence interval:  ##  -0.02964101  0.05806894  ## sample estimates:  ##        cor  ## 0.01424136

测验的后果是，因为P =0.5247> 0.05，因而在0.05的显署性程度下，承受原假如，认为两者之间不具备相干关系。

查看婚姻状况和浏览《精品》的工夫之间是否具备相干关系

cor.test(datacor$"婚姻状况",           datacor$"浏览《精品》的工夫")##  ##  Pearson's product-moment correlation  ##  ## data:  datacor$婚姻状况 and datacor$"浏览《精品》的工夫"  ## t = -1.7215, df = 1995, p-value = 0.08531  ## alternative hypothesis: true correlation is not equal to 0  ## 95 percent confidence interval:  ##  -0.082238962  0.005358859  ## sample estimates:  ##         cor  ## -0.03851404

测验的后果是，因为P =0.08531> 0.05，因而在0.05的显署性程度下，所以承受原假如，认为两者之间不具备相干关系

[]()查看受教育水平和浏览《精品》的工夫之间是否具备相干关系

cor.test(datacor$"受教育水平",           datacor$"浏览《精品》的工夫")##  ##  Pearson's product-moment correlation  ##  ## data:  datacor$受教育水平 and datacor$"浏览《精品》的工夫"  ## t = -0.71111, df = 1995, p-value = 0.4771  ## alternative hypothesis: true correlation is not equal to 0  ## 95 percent confidence interval:  ##  -0.05974084  0.02796468  ## sample estimates:  ##        cor  ## -0.0159187

测验的后果是，因为P =0.4771>0.05，因而在0.05的显署性程度下，承受原假如，认为两者之间不具备相干关系。

2.回归剖析

查看共线性关系

which(abs(cormatrix)>0.6,arr.ind = T)##                              row col  ## 编号                           1   1  ## 性别                           2   2  ## 年龄                           3   3

从后果看，没有相关系数大于0.6的不同变量。因而，变量间不存在共线性问题。

回归剖析

summary(model)

从回归模型的后果来看，能够看被调查者的职业或身份,家人是否浏览《精品》`,以及豪华版内容是否吸引人等因素对被考察对象否浏览《精品》的工夫有比拟大的影响，p值小于0.05，因而该变量对被调查者抉择去看报纸有显著的影响。

3.模型筛选与比拟

无常数项模型拟合

回归模型校对

利用qqPlot()函数提供的正态假设检验办法，它画出了在n-p-1个自由度的t散布下的学生化残差图形，再配合Shapiro测验得出检测后果，而Shapiro样本量的大小范畴配合下图能够发现除了Providence，所有的点都离直线很近，都落在置信区间内，这表明与正态性假相符。

library(car)  qqPlot(model2,labels = row.names(datacor))

方差齐性

利用残差绘制曲线图并配合Durbin-Watson测验，此测验办法可能检测误差的序列相关性，再配合下表测验后果显著性为0.7604示意承受原假如，因而误差项独立性测验通过。

dwtest(model2)##  ##  Durbin-Watson test  ##  ## data:  model2  ## DW = 2.0242, p-value = 0.7604  ## alternative hypothesis: true autocorrelation is greater than 0

方差分析

所有变量的p值都小于0.05，阐明在0.05的显著程度上，不同特色的被考察对象的浏览精品工夫之间有显著差异

最受欢迎的见解

1.[](http://tecdat.cn/r%e8%af%ad%e...)R语言多元Logistic逻辑回归利用案例

2.[](http://tecdat.cn/r%e8%af%ad%e...)面板平滑转移回归(PSTR)剖析案例实现

3.[](http://tecdat.cn/r%e8%af%ad%e...)matlab中的偏最小二乘回归（PLSR）和主成分回归（PCR）

4.[](http://tecdat.cn/r%e8%af%ad%e...)R语言泊松Poisson回归模型剖析案例

5.[](http://tecdat.cn/r%e8%af%ad%e...)R语言混合效应逻辑回归Logistic模型剖析肺癌

6.[](http://tecdat.cn/r%e8%af%ad%e...)r语言中对LASSO回归，Ridge岭回归和Elastic Net模型实现

7.[](http://tecdat.cn/r-%e8%af%ad%...)R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病

8.[](http://tecdat.cn/r%e8%af%ad%e...)python用线性回归预测股票价格

9.[](http://tecdat.cn/r%e8%af%ad%e...)R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测