回归案例--电影票房影响因素分析
文章结构
一、问题描述
二、调研
三、建模
四、数据收集
五、数据处理
六、描述分析
七、相关性分析
八、回归分析
九、不显著变量检验
十、回归模型总结
一、问题描述
近年来,我国电影产业发展迅猛,全产业链不断完善,制作水平及营销发行能力不断提高,为票房的大幅增长打下了坚实的基础。同时,政府制定扶持电影产业发展的政策以及快速发展的经济水平为电影产业创造了有利的发展环境。2012年中国电影年度票房总量首次超过日本,成为全球第二大电影市场,仅次于美国。但电影产业仍属高风险行业,投资亏损屡现不鲜。研究电影票房影响因素事关影视行业的繁荣发展,对扩大中华文化国际竞争力和影响力与增强国家文化软实力也具有重要作用。
本文章利用SPSS等数据分析工具,在已有数据的基础上进行数据分析,通过解析数据间的关联性和影响程度,进行电影票房影响因素分析。
二、调研
通过资料收集和组内成员讨论,在众多影响电影票房的因素中,提炼出六个可能与电影票房有关联的因子:
①上映前电影影响力:即电影上映前的宣发程度对电影票房的影响。通过对“灯塔专业版”中电影相关各类数据的衡量,初步认为“首映前营销事件累计关注人数”、“预告片播放量(淘票票)”、“想看人数(淘票票)”、“爆米花指数”四个因子均在一定程度上体现电影宣发力度。
②上映前期电影影响力:电影上映初期的一些数据,在一定程度上可影响电影票房后续发展,前期数据好,往往能带动中后期票房稳定。“电影首日票房”、“上映首周票房”可体现上映前期市场反应,“首映1月内全网舆情有效评价条数”、“正面评论率”则反映网络平台对电影的评价风向。
③电影IP影响力:如今市场是流量为王,在极短的时间内让大众记住电影的名称,往往需要一定的噱头和演员/导演光环的加成。我国的电影创作基本实行导演中心制,导演的质量在一定程度上代表了电影的质量;明星能吸引众多注意力,具有票房影响力和保障投资安全的能力,其影响力表现为对手中的吸引程度;系列电影往往能借助上一部的品牌价值获得较好的收入,而故事改编电影则能吸引一大批原有粉丝前往观看。故拟从“导演影响力”、“演员影响力”、“是否续集、翻拍”三个方面,综合考虑电影的IP影响力。
④档期:纵观多部电影的上映时间,春节、劳动节、国庆节等法定节假日,寒暑假之类的超长节假日及情人节、七夕等人流量巨大的纪念节日,一般会成为大多数电影的选择。
⑤题材:爱情/动作/推理等题材的不同,吸引的受众也会有差异,商业片往往比文艺片更受市场欢迎,即使是粗制滥造的快餐爱情片,票房数据往往也会高于同档文艺片。
⑥口碑评分:电影口碑对电影的票房成绩发挥着重要的作用。如果一部电影能够得到观众的肯定,就算没有大规模的市场营销,观众也会以“民间传播”的形式为电影做宣传,从而达到很高的观影人次。2019年暑假上映的《哪吒》,正是一大力证。
三、建模
通过调研,认为以下14个因子将会影响电影票房。其中,档期、题材、是否续集或翻拍为属性变量,将通过单因素分析来判断其是否对电影票房产生影响。剩余的11个因子均为数值型变量,先通过相关性判断每个因子对电影票房的影响程度,再对11个因子逐步筛选,建立线性回归模型。最后,再判断筛掉的因子是否存在交互效应、中介效应、调节效应。
四、数据收集
1、样本选择
选取2019年在中国大陆上映电影累计票房前100名。
2、数据来源
①灯塔专业版——首映前营销事件累计关注人数、预告片播放量(淘票票)、想看人数(淘票票)、爆米花指数、电影首日票房、上映首周票房
②八爪鱼——首映1月内全网舆情有效评价条数、正面评论率
③豆瓣——评分、题材、档期
④微博、ins、百度——演员影响力、导演影响力、是否续集/翻拍
3、部分数据解释
①全网舆情有效评价条数(首映1月内):
数据来源于淘票票、优酷等多平台的有效评论,本分析选取电影首映一个月内的有效评论条数以及正面评论率。
②爆米花指数:
上映前60天起,监测全网用户关注热度,每天更新当天热度。综合指数是根据想看热度、新闻媒体热度、微博热度、微信热度、搜索热度以及预告片热度来综合打分。
③演员影响力:
选取每部电影中三位最主要的演员,并通过查询其微博粉丝数来确定其影响力,一般来说粉丝数越多的演员,其影响力越大。
④导演影响力:
上百度搜索导演的获奖情况,并按照下面的评分标准对导演进行评分。
五、数据处理
将数据整理成EXCEL表,导入SPSS数据集。
1、数据正态标准化
2、题材数据分类
以“题材”作为分类变量,用序号代表类型。
3、档期数据转化
六、描述分析
1、描述统计
①档期
根据档期对数据进行拆分,然后再根据档期对数据进行分析。从所选的100部电影数据可以看出,在档期这一栏中,大部分电影都集中在普通时段进行上映,暑期档也相对较多,而剩余其他节日上映电影则只有16部。从均值可以看出春节档平均票房最高,其他节日档和暑假档次之,普通档则最少。如下图:
②题材
其次,根据影片类型对数据进行拆分,然后再根据类型对数据进行分析。从题材的描述分析中可以看出,剧情类电影占据42%,其次是动作片和动画类型,占比31%,而灾难、奇幻、科幻、悬疑则占比较少。其中,评分这一变量里,爱情类的影片评分最低,喜剧次之。票房这一栏里,灾难片平均票房最高,但是因为只有一部灾难片,所以不具有代表性。而平均票房最高的是科幻片,其次是动画类型的影片,票房最少的则是悬疑片。
③是否续集或改编
对是否续集或改编这一因子进行分析时可以看出,大约50%的电影是根据原创剧本进行拍摄,50%剧本是续集或者翻拍。而在淘票票想看人数这一栏中,可以看出续集或改编的想看人数要多于原创,说明续集或改编的电影具有一定的粉丝基础,因此平均票房也会比原创剧本多一些。如下图:
④评分
首先对评分数据进行重新编码,将评分2.0-5.0的电影归为1,评分5.1-7.5的电影归为2,评分7.6-10.0的电影归为3。可以看出,大部分电影集中在5.1-7.5这个区间,而较差或较好的电影则相对较少,说明电影的质量大部分是中等水平,没有极端烂片或者很好的影片。而在票房分析和想看人数分析中可以看出评分较高的影片票房则相对较高,想看人数也相对较多,说明影片的质量对票房具有较大的影响。如下图:
2、属性变量的方差分析
影响票房的影响因素中,档期、题材、是否续集或改编,这三个变量属于属性变量,对这些变量进行多因素方差分析,研究不同档期、不同题材、是否续集或改编是如何影响电影票房的,结果如下:
该分析下累计票房变量的总差值SST被分解成8个部分,分别是:由题材差异引起的变差SSA,由档期差异引起的变差SSB,由是否改编或续集差异引起的变差SSC,由题材和档期交互作用引起的变差SSAB,由题材和是否改编或续集交互作用引起的变差SSAC,由档期和是否改编或续集交互作用引起的变差SSBC,由题材、档期及是否改编或续集三个变量交互作用引起的变差SSABC,由随机因素引起的变差SSE。这些变差除以各自的自由度后,得到各自的方差,并可计算出各F检验统计量的观测值和在一定自由度下的概率P值。FX1,FX2,FX3,FX1*X2,FX1*X3,FX2*X3,FX1*X2*X3的概率P值分别为0.267,0.045,0.632,0.002,0.143,0.276,0.004。
当显著性水平α为0.05,由于FX1,FX3,FX1*X3,FX2*X3的概率P值大于显著性水平α,可认为不同题材对累计票房不产生显著影响,是否改编或续集对累计票房不产生显著影响,不同题材和是否改编或续集对累计票房不产生显著的交互作用,不同档期和是否改编或续集对累计票房不产生显著的交互作用。由于FX2,FX1*X2,FX1*X2*X3的概率P值小于显著性水平α,可认为档期不同对累计票房产生显著影响,不同题材类型时的不同档期对累计票房产生显著影响,且题材、档期、是否改编或续集三个变量对累计票房产生显著的交互作用。
七、相关性分析
1、自变量与因变量的相关性
每个数值变量与电影总票房之间做相关性分析,得到以下结果:
①总票房与首日票房
由下图可知,p<0.05,即电影首日票房与累计票房有显著相关关系,且相关系数高达0.728,为强相关,即电影首日票房对总票房的影响显著。
说明潜在消费者很可能因为首日高票房而青睐某一部自己并没有做过攻略的电影,体现了消费者中的从众效应。
②总票房与上映首周票房
由下图可知,p<0.05,即电影首周票房与累计票房是有显著相关关系,且相关系数高达0.881,为强相关,即电影首周票房对总票房的影响显著。可以说明除个别电影外,首周票房占据了比较大的份额或者奠定了一部电影的社会口碑。
③总票房与电影评分
由下图可知,p=0.009<0.05,即电影豆瓣评分与累计票房有相关关系,但相关系数为0.263,为较弱相关,即豆瓣评分对总票房的影响较弱。
④总票房与想看人数
由下图可知,p<0.05,即上映前“淘票票”想看人数与累计票房是有关系的,且相关系数高达0.709,为强相关,即其对总票房的影响显著。说明绝大部分消费者通常会在电影上映前就对该电影抱有期待或者兴趣,而不是临时起意。
⑤总票房与预告片播放量
由下图可知,上映前“淘票票”预告片播放量与累计票房是有相关关系的,且相关系数高达0.737,为强相关,即其对总票房的影响显著。
⑥总票房与首映前事件累计关注人数
由下图可知,上映前相关营销事件与累计票房是有关系的,相关系数为0.552,为中等程度相关,即其对总票房高低有影响。说明营销事件的合理运用会对电影票房产生较大影响,两者为正相关。
⑦总票房与全网舆情有效评价条数
由下图可知,全网舆情有效评价条数与累计票房是有关系的,且相关系数为0.852,为极高程度相关,即其对总票房高低有显著影响。说明上映前期,电影话题度越高,关注的人越多,其票房也会随之受到正面影响。
⑧总票房与正面评论率
由下图可知,正面评价率(八爪鱼)与累计票房的相关系数仅为0.247,为较低程度相关,即其对总票房高低有影响但程度不高。
⑨总票房与上映前一天爆米花指数
由下图可知,上映前一天爆米花指数(综合)与累计票房的相关系数为0.415,为中等程度相关,即其对总票房高低有影响但程度不那么显著。
⑩总票房与导演影响力/演员影响力
由下图可知,一般认为导演影响力、演员影响力与累计票房是有关系的,但其相关系数分别为0.108、0.208,为极低程度相关,即导演影响力、演员影响力对总票房高低有影响但程度极弱。
同时可以看出导演影响力与演员影响力的相关系数仅为0.064,说明两者基本也没有相关性,证明导演与演员的热度并不会互相影响,人气高的演员也有可能演“烂片”。
2、自变量间的相关性
以下是对所有自变量间相关关系的分析:
由上图可知,自变量间有显著影响的有:
①首映前营销事件累计关注人数与想看人数,相关系数为0.953;
②上映首周票房与首日票房,相关系数为0.823;
③想看人数与首日票房,相关系数为0.751;
④首映前营销事件累计关注人数与首日票房,相关系数为0.745;
⑤想看人数与上映首周票房,相关系数为0.706;
⑥舆情有效评价条数与预告片播放量,相关系数为0.686;
⑦舆情有效评价条数与首映首周票房,相关系数为0.613。
根据分析,我们可以发现相互影响较大的自变量之间有较为明显的因果关系,比如首日票房本身就是首周票房的组成部分;首映前的营销事件累计关注人数反映的是电影的宣传过程,宣传过程必然就影响了电影的想看人数,而造势期的想看人数又进一步影响了电影上映首日票房及首周票房。
通过舆情评论也可以看出电影的受关注程度,一定程度上反映了宣发期的效果,如预告片的播放量,与此同时舆情博得的关注度也影响电影上映后最开始一段时间的票房。
八、回归分析
1、模型建立
由前面的自变量间相关性检测,发现想看人数、首日票房与其他变量之间存在较强的相关性,故在线性建模时,排除这2个变量,用剩余的9个变量建立回归模型。因子选择如下:
由于电影数据的特殊性,每个变量之间存在少数的离群值。为了减少离群值的影响,此处建模利用自动线性建模的特点,即自动进行离群值的处理。将9个预测变量输入,模型选择方法设置为“包括所有预测变量”,结果如下:
由上面的系数表可得,上映前一天爆米花指数、演员影响力、导演影响力、正面评论率这四个变量的P值大于0.05,即不可拒绝原假设,即这些自变量与因变量总票房之间不存在显著的线性关系。
2、模型重新建立
现将与因变量不存在显著线性关系的4个变量剔除,剩余5个变量,对这5个变量进行上述操作,可得以下结果:
由上表的回归系数显著性检验结果可得,上映首周票房、全网舆情有效评价条数、首映前营销事件累计关注人数、评分这四个变量t统计量所对应的P值都小于0.05,而预告片播放量的P值大于0.05,故剔除预告片播放量。
3、模型重新建立及效果评估
上面模型中再剔除预告片播放量,只剩下上映首周票房、舆情有效评价条数、首映前营销事件累计关注人数、评分这四个自变量,对这四个变量进行如上操作,可得
上图展示了模型的拟合效果,其模型准确度为79.5%,大于70%,拟合效果较佳。
上图呈现的是多元线性回归方程的显著性检验结果,F统计量的观测值为96.992,其对应的P值近似于0。若显著性水平为0.05,此处P<0.05,即可拒绝原假设,认为这4个变量全体与被解释变量之间存在显著的线性关系。
由上表的回归系数显著性检验结果可得,上映首周票房、全网舆情有效评价条数、首映前营销事件累计关注人数、评分这四个变量t统计量所对应的P值都小于0.05,故可保留在模型里面。
3、变量的多重共线性检验
由于自动线性回归中没有计算容忍度和方差膨胀因子的功能,为了判断所选变量之间的共线性问题,此处用普通的线性回归来对这4个自变量进行建模,得到其容差和VIF值,如下:
解释变量间的多重共线性越弱,VIF值就越接近于1。由上图可得,每个变量的VIF值都小于3.3,即可认为各变量与方程中的其余解释变量之间的多重共线性较弱。
4、残差独立性检验
为了判断残差的独立性,操作与上面相同,使用不做离群值处理的普通回归方法得到DW值,用之近似自动线性建模的DW值。如下图:
如上图,DW值为1.631,处于0到2之间,且偏向于2,故残差序列存在较弱的正自相关性。
5、模型建立
综上,可认为上映首周票房、全网舆情有效评价条数、首映前营销事件累计关注人数、豆瓣评分对电影票房有所影响,且所构建方程的拟合度较高,说明这4个自变量能很好地解释因变量。同时,这4个变量之间的多重共线性较低,模型的残差序列存在较弱的自相关性。从各方面可判断模型是较为合适的,模型如下:
Y = 0.173 + 1.288X1 + 0.455X2 - 0.315X3 + 0.142X4
X1为上映首周票房、X2为全网舆情有效评价条数、X3为首映前营销事件累计关注人数、X4为豆瓣评分、Y为电影总票房
九、不显著变量的检验
从上面分析中,可以得到预告片播放量、上映前一天爆米花指数、正面评价率、演员影响力、导演影响力这5个变量为不显著变量。将进一步检验其是否为中介变量或者其他变量。
1、交互作用
为了确认上面五个不显著变量,是否存在两个变量共同作用对因变量产生影响,故将这五个变量两两相乘,得到10个交互项,并将这些交互项进行标准正态化。
由于暂时无法确认这5个不显著的变量是否存在交互作用,故将这10个交互项与前面方程中的4个显著自变量输入到方程中,模型选择方法为向前步进,筛选出对因变量显著影响的变量。自变量输入如下:
线性回归结果如下:
由上面的模型摘要来看,调整后的R方为0.946,说明拟合效果很好。
上图呈现的是多元线性回归方程的显著性检验结果,F统计量的观测值为282.770,其对应的P值近似于0。若显著性水平为0.05,此处P<0.05,即可拒绝原假设,认为自变量全体与被解释变量之间存在显著的线性关系。
由上表的回归系数显著性检验结果可得,上映首周票房、全网舆情有效评价条数、导演影响力与演员影响力、评分、首映前营销事件累计关注人数这5个变量t统计量所对应的P值都小于0.05,应都保留在模型中。
模型如下:
Y = -0.046 + 0.691X1 + 0.141X2 - 0.064X3*X4 + 0.044X5 + 0.061X6
X1为上映首周票房、X2为全网舆情有效评价条数、X3为导演影响力、X4为演员影响力、X5为豆瓣评分、X6为首映前营销事件累计关注人数、Y为电影总票房
综上,导演影响力与演员影响力的交互作用对因变量产生显著的影响。
2、中介效应检验
①中介检验说明:
中介作用是研究X对Y的影响时,是否会先通过中介变量M,再去影响Y;即是否有X->M->Y这样的关系,如果存在此种关系,则说明具有中介效应。比如工作满意度(X)会影响到创新氛围(M),再影响最终工作绩效(Y),此时创新氛围就成为了这一因果链当中的中介变量。
②检验方法:
假如我们有三个变量分别是:自变量(X),因变量(Y),中介变量(M)。
Step1:检测Y=cX+e1中的c是否显著
Step2:检测M=aX+e2中的a是否显著
Step3:检测Y=c'X+bM+e3中b和c'是否显著
Step4:通过下面的检测判断是否存在中介效应
③中介检验模型:
现需确认上面所建影响电影票房的回归模型中,对Y不显著的变量是否为中介变量。那么,则需假设对Y影响显著的变量X(如:评分),先通过对Y不显著的变量(如:正面评价率),再去影响Y(即票房)。通过上面的检测过程判断假设是否成立。
④中介检验结果:
由上表可得,预告片播放量、上映前一天爆米花指数、正面评价率不存在完全中介效应。
3、调节作用检验
①调节作用说明:
调节作用是指X对于Y的影响过程中,调节变量M取值不同时,X对于Y的影响程度是否会有明显差异,如果M取值不同时,X对于Y的影响幅度并不一致,即说明具有调节作用。比如研究员工组织信任对于离职意愿影响时,不同性别时,影响幅度是否一致,如果不一致则说明性别具有调节作用,反之则说明性别没有调节作用。
②检测方法:
Y是因变量,X是自变量,M是调节变量,MX是调节变量和自变量的交互项。我们可以检验两个方程的R方变化量,如果该变量显著,说明调节作用显著。也可以直接检验交互项系数c'的显著性,如果显著也可以说明调节作用显著。
Y=a+bX+cM+e1
Y=a+bX+cM+c'MX+e2
③调节检验模型:
④检验结果
1)爆米花指数的调节作用:
由上图可知,方程的R方变化显著,方程中的交互项系数也显著,故可认为评分对电影票房的影响过程中,爆米花指数取值不同时,评分对于电影票房的影响会有明显差异,这说明爆米花指数具有调节作用。
联系现实,爆米花指数反应了全网用户关注热度。当关注热度不同时,评分对电影票房的影响幅度不一致。例如,当关注热度高的时候,评分更能影响电影票房。
2)正面评价率的调节作用:
由上图可知,方程的R方变化显著,方程中的交互项系数也显著,故可认为评分对电影票房的影响过程中,正面评价率不同时,全网舆情有效评价条数对于电影票房的影响会有明显差异,这说明正面评价率具有调节作用。
联系现实,全网舆情有效评价条数体现的是话题热度。一般情况下,评价条数多,但是正面评价率低,则评价条数对电影票房存在负面影响。评价条数多,且正面评价率高,则评价条数对电影票房存在正面影响。
十、回归模型总结
1、最终的回归方程
Y = -0.046 + 0.691X1 + 0.141X2 - 0.064X3*X4 + 0.044X5 + 0.061X6
X1为上映首周票房、X2为全网舆情有效评价条数、X3为导演影响力、X4为演员影响力、X5为豆瓣评分、X6为首映前营销事件累计关注人数、Y为电影总票房
2、自变量对电影票房的作用
上映首周票房、全网舆情有效评价条数、首映前营销事件累计关注人数、豆瓣评分显著影响电影票房,演员影响力和导演影响力交互影响电影票房。上映前一天爆米花指数在评分对电影票房的影响中具有调节作用,正面评论率在全网舆情有效评价条数对电影票房的影响中具有调节作用。
备注:该文章成果由多人合作完成,转载需注明出处。笔者希望通过文章分享,与诸位读者共同学习共同进步。文章当中可能会存在一些问题,欢迎读者提出!