关于数据挖掘:数据报告分享SPSS基于多元回归模型的电影票房预测

37次阅读

共计 3618 个字符,预计需要花费 10 分钟才能阅读完成。

全文链接:https://tecdat.cn/?p=33190

原文出处:拓端数据部落公众号

本文通过利用回归模型对电影的票房(以及放映场数,观影人数)进行了钻研,确定了决定电影的票房的重要因素。并讲述、论证了预测电影的票房是电影投资的至关重要的环节。通过对电影票房预测技术的倒退和探讨,深度分析了电影票房预测这个研究课题。

一、电影票房预测倒退简介

(一)东方电影票房的钻研

美国电影的票房钻研起始于上个世纪 80 年代,由李特曼(B. R. Litman)在 1989 年以 1981 到 1986 年在美国播出的 697 部电影作为钻研样本,通过多元回归剖析,初步建设了电影票房的预测模型。

咱们收集了中国电影发行放映协会统计的过千万票房的国产电影的相干统计指标,共波及 275 部影片.

因变量为:

放映场数(千场):累积量。

观影人数(万人):累积量。

票房(万元):累积量。票房均值在一亿人民币左右,其中《人在囧途之泰囧》票房达到了 12.7 亿,位列第一。

自变量为:

•影片局部

genre  影片类别:分类变量,共有 15 个类型。为了取得大量的观众群体,大多数影片都兼具许多种影片类型,因而咱们仅选取了该片最次要的类型。15 个类型别离是:悲剧,魔幻,动作,恋情,劫难,历史剧情,励志,主旋律,警匪,悬疑,动画,儿童,惊悚,家庭伦理。

Year 上映年份:2010-2013 四年

month 上映月份:1-12

week 上映周数:1-53,从当年 1 月 1 号起记为第一周

distribute 电影分级:C/G/L/S

runtime 时常:分钟。过长或过短的电影都会对票房产生影响,找到正当的时长,从而可能无效的管制电影的剪辑。

Story 作品是否改编:该指标是电影产品的外围元素,在内容为王的当下,好的剧本往往可能吸引受众,对于国产影片,观众更看重的是好的故事,他们往往对国产影片的技术并不抱太大心愿。因而,该指标次要包含两个程度,一是畅销小说改编成剧本 1,另一个则是非改编剧本也就是原创剧本 0。(N= 改编,S= 原创

reality 作品是否真人真事:1= 实在,0= 虚构

remake  作品是否翻拍:1= 翻拍,0= 非翻拍

sequel  作品是否续集:好莱坞的一大主旨是誓将续集进行到底,真堪称山高水长有时尽,大片续集无绝期!因为第一,好拍;第二,票房好。那么,在中国市场,这招是否依然管用?

•导演演员局部

导演姓名

导演年代

第几部作品:该片是该导演的第几部作品。冠军《人在囧途之泰囧》是导演徐峥的处女作,拿到了 12 亿的票房,而悲剧《财神客栈》曾经是导演王晶的第 110 部影片。老导演 or 新导演,哪一种更吸引人?是久炼成钢,姜越老越辣?还是廉颇老矣,洗洗回家睡吧?

导演得奖状况:1= 得奖,0= 没得奖

导演是否转型:导演是一门的确可能自学成才的工种,就像久病成医,演的多了,拍的多了,天然也能成为优良的导演。在中国电影市场中,演员转型当导演的赵薇、徐峥;作家转型的郭敬明、韩寒,咱们心愿看到曾经在本人的畛域获得成就的这些名人,随着工种的转变是否会对票房有影响。

Baidu index 主演的百度指数:影片的主演在剖析中是一个字符变量,为了更好的应用这一指标,同时优化工作效率,咱们决定在雷同的时间段,抉择所有演员百度指数的平均值作为掂量主演的规范。因为大多数电影不会仅有一个主演,所以咱们选取了两个主演。百度指数越高,代表该演员知名度越高。

查看数据  该数据集有以下一些变量:

从上表能够看到不同变量的缺失数据均值中值最大最小值等状况和散布状况。

 模型建设

次要思路 为了精确的预计票房, 理解电影票房的个别法则, 更好为电影投资方提供参考意见, 本文从电影票房和电影相干属性登程, 采纳多元回归分析方法, 建设了线性回归模型, 得出了电影票房变动的影响因素. 具体分析步骤

1. 描述性统计,初步查看每个变量的均数中值等数据.

2. 抉择多项式回归模型

2.1 变量选取 通过回归模型筛选出显著性较强的变量进行回归建模。

2.2 显著性测验 依据 F 值和 p 值统计量来判断模型是否具备显著的统计意义。

2.3 拟合预测 应用失去的模型对理论数据进行拟合和预测。

3. 拟合不同的模型。查看模型成果。

4. 剖析得出结论 得出各个自变量之间的关系,以及它们对因变量的影响及其意义。

转换数据,拟合多元线性模型

将所有数据转化成数值类型

 建设多元线性:票房

尝试通过最直观的解释建设模型

 进行多元线性模型并进行剖析

从全变量模型能够看出大部分变量无奈预计出其参数,阐明局部变量不适宜用来预测票房,因而对其中的局部变量进行删减后。失去筛选后的回归模型。

  •  筛选变量
  •  显示回归后果

回归后果剖析

从输入后果的变量 sig 值能够看出,导演的状况和是否有续集以及电影的时长对电影的票房有微小的影响。从变量的 coefficient 回归系数来看,导演的状况和是否有续集有正向关关系。

回归后果

残差剖析能够对回归模型的假如条件即随机误差项是否独立同散布进行测验,同时还能够找出离群点。显示后果如下:

左图是残差直方图,从图上能够发现,所有点基本上是随机地扩散在 0 四周,密度曲线近似为正态分布。

  进行多元线性模型并进行剖析——放映场数

回归后果剖析

从输入后果的变量 sig 值能够看出,和票房的回归后果相似。导演的状况和是否有续集以及电影的时长对电影的上演场数有微小的影响。

回归后果

残差剖析能够对回归模型的假如条件即随机误差项是否独立同散布进行测验,同时还能够找出离群点。显示后果如下:

左图是残差直方图,从图上能够发现,所有点基本上是随机地扩散在 0 四周,密度曲线近似为正态分布。

进行多元线性模型并进行剖析——观影人数

回归后果剖析

从输入后果的变量 sig 值能够看出,和票房的回归后果相似。导演的状况和是否有续集以及电影的时长对电影的上演场数有微小的影响。

回归后果

残差剖析能够对回归模型的假如条件即随机误差项是否独立同散布进行测验,同时还能够找出离群点。显示后果如下:

左图是残差直方图,从图上能够发现,所有点基本上是随机地扩散在 0 四周,密度曲线近似为正态分布。

最初咱们失去了文件后果:

代码:

GET DATA   /TYPE=TXT   /FILE='E:\ 电影票房数据.csv'   /DELCASE=LINE   /DELIMITERS=","   /ARRANGEMENT=DELIMITED   /FIRSTCASE=2   /IMPORTCASE=ALL   /VARIABLES=   片名 A30   放映场数 A8   人数 A10   boxoffice F9.2   genre A8   year A7   month A4   week F4.0   distribute A2   runtime A3   story A3   reality A2   remake A1   sequel F1.0   导演 A22   导演年代 A6   第几部作品 A6   导演得奖状况

最受欢迎的见解

1.[](https://tecdat.cn/r%e8%af%ad%e8%a8%80%e7%bb%98%e5%88%b6%e7%94…)R 语言多元 Logistic 逻辑回归 利用案例

2.[](https://tecdat.cn/r%e8%af%ad%e8%a8%80%e7%94%9f%e5%ad%98%e5%88…)面板平滑转移回归 (PSTR) 剖析案例实现

3.[](https://tecdat.cn/r%e8%af%ad%e8%a8%80%e5%a6%82%e4%bd%95%e5%9c…)matlab 中的偏最小二乘回归(PLSR)和主成分回归(PCR)

4.[](https://tecdat.cn/r%e8%af%ad%e8%a8%80%e4%b8%ad%e4%bd%bf%e7%94…)R 语言泊松 Poisson 回归模型剖析案例

5.[](https://tecdat.cn/r%e8%af%ad%e8%a8%80%e7%94%9f%e5%ad%98%e5%88…)R 语言回归中的 Hosmer-Lemeshow 拟合优度测验

6.[](https://tecdat.cn/r%e8%af%ad%e8%a8%80ggplot2%e8%af%af%e5%b7%a…)r 语言中对 LASSO 回归,Ridge 岭回归和 Elastic Net 模型实现

7.[](https://tecdat.cn/r-%e8%af%ad%e8%a8%80%e7%bb%98%e5%88%b6%e5%8…)在 R 语言中实现 Logistic 逻辑回归

8.[](https://tecdat.cn/r%e8%af%ad%e8%a8%80%e5%a6%82%e4%bd%95%e6%89…)python 用线性回归预测股票价格

9.[](https://tecdat.cn/r%e8%af%ad%e8%a8%80%e4%b8%ad%e7%9a%84%e7%94…)R 语言如何在生存剖析与 Cox 回归中计算 IDI,NRI 指标

正文完
 0