关于数据挖掘:数据分享R语言逐步回归方差分析anova电影市场调查问卷数据可视化附代码数据

40次阅读

共计 1839 个字符,预计需要花费 5 分钟才能阅读完成。

全文链接:http://tecdat.cn/?p=30680

最近咱们被客户要求撰写对于电影市场考察问卷数据的钻研报告,包含一些图形和统计输入。

这是一份无关消费者对电影市场认识及倡议的调查报告,咱们采取了问卷调查法,其中发放问卷 256 份,回收无效问卷 200 份

咱们对数据 查看文末理解数据收费获取形式 进行了根本剖析, 比方: 相关性。还有根本图形、回归方差分析。最初模型比拟。

读入数据

head(data)

数据的形容

str(data)

数据一共有 200 个样本,25 个属性。具体属性和取值及其含意如下:

数据展现

绘制各个变量的饼图能够看到根本人口信息的各个取值的所占的百分比。


点击题目查阅往期内容

数据分享 | 数据视角可视化剖析豆瓣电影评分爬虫数据

左右滑动查看更多

01

02

03

04

数据个性总结

根本统计量

数据筹备

数据的清理

# 数据清理

对缺失值(NA)的解决

data=na.omit(data)

 

#变量筛选

 colnames(data)

 

data=data[, -which(colnames(data) %in% c("填写工夫","是否星标","提交后随机码" , " 是否已

数据分析

根本数据分析, 比方: 相关性。还有根本图形、回归方差分析。最初模型比拟。

数据测验

相关性

查看您对中国电影产业的倒退倡议和请问您看电影的次要目标是什么变量之间是否具备相干关系

测验的后果是,因为 P =0.016<0.05,因而在 0.05 的显署性程度下,回绝原假如,认为两者之间具备相干关系。

上面进行方差分析

m1<-aov(Q12. 您个别通过什么路径购买电影票~Q9. 请问您看电影的次要目标是什么,data=datacor)

 因为 p 值大于 0.05,从这个后果能够看出看电影的不同目下购买电影股票的差异不显著。

 因为 p 值小于 0.05,从这个后果能够看出看电影的不同目下购买电影股票的差异不显著。

回归剖析

从回归模型的后果来看,能够看到承受电影票价格区间对被考察对象思考的电影外在因素有比拟大的影响,p 值小于 0.05,因而该变量对被调查者抉择去看电影有显著的影响。其次被调查者的年龄也有较显著的影响,能够年龄和被调查者去看电影有较大的负相关关系,因而能够认为年龄大的人会偏向于思考的看电影各种外在因素。

plot(model)

从回归模型的残差后果图来看,残差比拟平均地散布在 0 线四周,和 qq 图四周,阐明残差随机遵从正态分布,因而,回归模型具备较好的成果。

模型的比拟和探讨

模型筛选与比拟, 应用逐步回归进行模型筛选最优模型,而后和传统的回归模型进行比拟。删去不显著的变量.

进行变量删减后的回归模型,咱们失去最优变量是被调查者承受的电影票价格区间,p 值小于 0.05,阐明该变量对被调查者思考的外在因素有显著的影响。

数据获取

在公众号后盾回复“电影 ”,可收费获取残缺数据。**

点击文末 “浏览原文”

获取全文残缺代码数据资料。

本文选自《R 语言电影市场考察问卷回归模型、方差 anova 剖析可视化》。

点击题目查阅往期内容

R 语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测
逻辑回归 (对数几率回归,Logistic) 剖析研究生录取数据实例
R 语言应用 Metropolis- Hasting 抽样算法进行逻辑回归
R 语言逻辑回归 Logistic 回归剖析预测股票涨跌
R 语言在逻辑回归中求 R square R 方
R 语言逻辑回归 (Logistic Regression)、回归决策树、随机森林信用卡守约剖析信贷数据集
R 语言对用电负荷工夫序列数据进行 K -medoids 聚类建模和 GAM 回归
R 语言进行反对向量机回归 SVR 和网格搜寻超参数优化
R 语言贝叶斯 MCMC:GLM 逻辑回归、Rstan 线性回归、Metropolis Hastings 与 Gibbs 采样算法实例
在 R 语言中实现 Logistic 逻辑回归
R 语言逻辑回归、Naive Bayes 贝叶斯、决策树、随机森林算法预测心脏病
R 语言用 Rcpp 减速 Metropolis-Hastings 抽样预计贝叶斯逻辑回归模型的参数
R 语言逻辑回归 logistic 模型剖析泰坦尼克 titanic 数据集预测生还状况
R 语言用 lme4 多层次(混合效应)狭义线性模型(GLM),逻辑回归剖析教育留级考察数据
R 语言随机森林 RandomForest、逻辑回归 Logisitc 预测心脏病数据和可视化剖析
R 语言基于 Bagging 分类的逻辑回归(Logistic Regression)、决策树、森林剖析心脏病患者
R 语言逻辑回归(Logistic 回归)模型分类预测病人冠心病危险

正文完
 0