2018豆瓣热门电影数据的多角度全死角分析(上)

写在前面:试水之作!作为一名无差别影迷,我平常会经常观看各种类型的影视作品,有偏好但总体比较客观。而作为一名工科生,我又是对数据很敏感,但处理为多分析较少。最后作为一名伪文青,我又时常想写点什么分享自己的热爱,让更多人能够以更多的角度去看待电影,也希望国内电影越来越好。这是我人生中第一篇挂在网上靠数据说话的文章,我伴随着忐忑的心情写下这篇不是很严谨的爬虫+数据分析的入门之作。以少量数据为基础发现了一些有意思的规律,一些相关代码我会给出github链接,让我们一起学习~

所用工具:python、excel、ScreenToGif

数据来源:【豆瓣】【imdb

微博@毛尔可夫

github毛坯房链接

只想看分析结果的跳过这段:本文采用的爬虫手段很朴素,一个requests包搭配正则走天下,个人更喜欢通过正则解析出需要的内容,有如解密。当然主要也是在学习阶段,用自己擅长的也算是熟能生巧。具体思路如下,首先我要分析18年的电影数据,而且这些数据得是大家伙看得比较多的,这样才具有广泛的群众意见评分也会很客观。插句题外话,网上经常说豆瓣的评分有点问题,其实混迹豆瓣这么多年,只能说这种现象存在且无法避免但只是极少数。那么我们继续往下走,这些数据全都在这个‘热门’标签下,通过爬取这个‘热门’的数据,共爬得280条影片标签卡信息(其中包括海报图url,海报图尺寸,影片id...评分,影名,影片url)


热门标签页

根据其中的影片url我们能找到以下的包含影片详细信息的网页,随后我爬取这些网页中的(导演,主演,类型...imdb链接,剧情简介)将这些数据与前面的数据汇总放在一张表里,当然还没结束,我最终想要的imdb号,于是通过这个编号我能爬取该影片在imdb上的信息,因为最初我只想分析下电影制片发行公司的信息,所以在imdb上我爬取的只是这些豆瓣上没有的信息。以上就是每部电影对应的特征信息,我将这些放在一张表里,当然也能存到数据库。因为涉及数据量少,存个csv就完事了,无论用excel还是python都很方便。那么接下来,我就要对采集到的这些信息进行我个人的多角度分析。



imdb中电影发行制作公司条目

分析:


2018热门电影的评分分布

记得曾经有位大神说过,如果单部电影评分的分布是个P字形,那么这部电影是很值得去看的。而我想说的是如果上升到时间这个维度,那么该年热门电影的评分分布也是个P字形的话,说明这一年的电影质量也是较佳的。从上图我们可以看到,今年到11月为止出的电影中,7分以上的电影占比很大,众数在三星半也就是7分,7分左右的分布比较均匀,如下图所示也是个P型分布。其实从局面上讲也说得通,18年对于文娱产业的冲击还是很大的,观众对高质量电影的诉求不断,对于烂片也越来越难容忍。崔老师的一手抽屉打击更是让影视圈的黑幕浮上台面,让众多经不起捶打的电影消失在院线。加之,有更多有追求有想法的导演与演员的努力,今年的暑期档是最令我惊喜和欣慰的,以往的国产片保护月似乎被几道利剑的锐气戳破了遮羞布,呈现在我们眼前的是“我不是药神”,“一出好戏"这类的国产篇,良心之作!一改以往对烂片保护月的认知。虽然对于看惯电影的人来讲,这些电影似乎有国外佳作的影子,但是在我看来运用好“影”也是一部好电影,我们不能因为”像极了“就一棍子打死,社会主义还是中国特色的呢。我们应该去以更多的角度,细节去观赏电影,因为好电影都是包含导演与编剧对这个社会这个时代的理解的,而这些理解会通过演员的表演与情感的投入灌输到观众的脑海中,如果我们去思考,我们会发现”哇,很有共鸣“或者”我觉得应该是这样子的“再或者“我的情绪在被剧情拖着走”。那么导演就成功了,这部电影也就成功了。故事套路有很多种,我们不应只关注剧情表面的走向,而要去尝试着去想导致这种走向的原因是为什么。而这就是剧情片!

P型分布

剧情片是一个很宽泛的概念,因为电影的评分网站的信息是由诸多用户自行打标签评论通过后台数据的汇总而得到的。那么很多时候一部动作片也包含犯罪、战争等元素,剧情又很好,那么这部电影可能会有多个标签:动作、剧情、犯罪。如下所示,所以这种普遍由用户决定的数据是多级的,我们可以理解为一种有条件的平行关系。如果是单纯的剧情片的话,就是栗子里面的第二部电影,往往单纯的剧情片会与人性、社会、自然等哲学意味的事物挂钩,这类电影往往能直击观众的灵魂引发人的深思,当然也往往会伴随着“看不懂”或是“冗长无聊”的反馈。我是很喜欢看这类电影,看完后甚至会去google这部电影中包含的寓意或是背景,就仿佛是开启了新世界无法自拔。

举个栗子

那么是不是所有的电影都会属于剧情片类型呢?答案是否,不过我们可以这么讲:剧情片是多标签高质量电影的最高级标签。毕竟有很多纪录片是很高质量的,但是纪录片里面的剧情可能需要观众自己脑补。不过有了剧情这一标签,我们就能从这一类信息中能有效判别一部已上映电影的好坏,由此来决定是否去电影院。下面的数据分析也能说明这一点。



首先我来放张总的类型分布饼图,如下所示。可以看到剧情标签的占比是最大的,因为它可能也同时是其他类好电影的最高级标签。那么18年大众的口味是怎样的呢,考虑到纯剧情片的比例不是很大,也可以考虑将剧情这类标签删除。得到的结果是喜剧、动作、爱情、犯罪....悬疑占近乎全部,其他类别普遍相比都少的可怜。这和电影的生态有关,越是这样以后的比例也会大致如此,这毕竟还是资本的市场,很多导演也开始走迎合市场的路线,毕竟艺术要得,给公司赚钱也要得。至于这电影题材top3:喜剧、动作、爱情。结合起来不知道为什么就觉得怪怪的,但也是很正常:性与暴力是人类永恒的题材,大多数人看电影还是图个爽,更注重的是视觉冲击和情怀拥抱。的确,生活已经不易了,要是坐在电影院里再思考人生岂不是更头疼。大家基本都爱喜剧,特别是国人,这是人之常情。只有哪天人民真正生活幸福了估计就寻思着喜欢看悲剧了,平衡是事物发展的必然。不过近两年的喜剧的确很不错,开心麻花的贡献很大,一些漫改电影也是有崛起之势估计下一年会是喜剧片角力的一方重点(不过这一点日本占据着天然优势)。


总的电影类型分布

那么,如果按照评分来看,类型是否有着决定性作用呢?为此我将评分划为以下几类:7分及以上(7+),5-7分(5-7),3-5分(3-5)。如下三张图所示:

7分以上电影类型分布饼图


5-7分电影类型分布饼图


3-5分电影类型分布

一个很直观的感觉,就是剧情标签的占比明显在下降从25.57%降到了13.33%。这也证明了剧情这一标签的特殊性,在7分以上的高分电影中剧情片的占比非常高几乎等于除剧情片外top3标签之和。作为高分电影的一级标签,更多的人认为剧情是电影很重要的一部分,反观两极化喜剧与爱情,在7+,3-5分的类型分布中分布是很多的,但低分喜剧、爱情片似乎少与剧情挂钩,那么这类电影就会没有营养甚至逻辑混乱,就会被观众踩下去。再看看今年的动作片,发现普遍在中低档游走,的确观众也看多了打打杀杀,特技什么的也大差不差,香港动作片持续低迷中,老牌动作演员也越来越少,新晋武生又没有太多亮眼表现(针对国内),国外的动作片还好有阿汤哥这类劳模撑着(谍6),但是国外的动作片很容易形成系列,系列又很容易会产生后续乏力的情况导致越拍越差。冷门片方面分布在中高分中,毕竟敢拍冷门题材聚焦奇特之点的影人要么是奇才要么就是疯子,而这两类人往往能将艺术推向巅峰。再看看低分电影方面,很明显低分电影中的类型无非是我们接触到的最常见题材,越是我们常见的越容易翻车,主要是容易拍所以很容易滋生腐败的资本。最后,让我们再看一眼动画片,发现在高分电影中动画片不在少数,只想说二次元赛高啊。



接下来我们再来分析一下电影与国家的关系,可能习惯上讲美国大片美国大片的,那事实上真的是这样吗?让我们来看图


所有热门电影国家分布

与其说美国大片的,还不如说是美国高产片。18年热门电影中美国参与发行制作的电影是最多的,国内其次(港澳台一并算进去了)。其次的是日韩和英法,其他地区可以算是冷门区了,令我意外的是今年的印度电影不如以往给力了,可能也被资本腐蚀了,当然更有可能的是过往太经典一时半会儿很难再超越。我们来结合评分具体再看看,和之前一样将评分划分。


7分以上热门电影国家分布


5-7分热门电影国家分布


3-5分热门电影国家分布

结合以上三幅图,直观可以看出,中美两国占着体量和市场优势产量颇丰。但总体美国电影质量比较好,因为低分段美国片的熟练要比国内少,高分段比国内多。

其他对比数据我可以得出以下结论:

1.今年国内烂片的比重还是很大,计算有三成,但今年的国产佳片更多,与往年比较还需要结合前几年数据,这个以后再完善。

2.北欧电影精致,数量少且大部分在高分段。日韩电影的水准较高,低分段不见踪影,中高档均匀分布,自成体系。

3.其他国家产量少,片源少很难做出判断可以理解为噪声,但是如果这些国家的电影进了热门那么很有可能是参展电影,那就牛批了。



最后,本篇再分析分析电影时长的分布特点,直接上图。


按之前评分划分画的箱式图,纵坐标是时长


上图给我的信息只有分布上的规律,总的时长跨度与高分电影是一致的,说明高分电影的时长跨度很大,这说明了高分电影的多样性,我们拿最短时长的电影和最长的电影说说看:最长的大象席地而坐,金马奖;最短的权游动画,大IP。剧情起手,前者导演胡波为了这部电影付出了什么大家现在也知道了,后者的编剧是小说作者乔治·马丁更不用说了。虽然时长跨度大,但是真的是有内容与情怀的,当有灵魂的时候,没了轻重,时间便变得不再重要。而且我们注意到大象这么长时间是因为这是导演剪辑版,是能完全体现导演思想和对电影理解的版本。所以有时候我也会去找导演剪辑版的电影,时间长,原汁原味,不用委屈于上映删减的版本,最能体现电影的本身。

相比之下,低分电影的时长就比较统一没什么太大跨幅而且时长普遍偏低,这也恰恰说明了低分电影的套路单一仿佛是生产流水线上的产品,没什么内容套一个鲜亮的外壳就出炉了,可能只需要很短的时间,根本不可能花时间去打磨,随便剪一下并一下做个宣传就上映了。

为了能进一步看清分布规律我们将评分再细分以下得到下面的这幅图,一起来看一下,得到的现象很明显,箱式图的中位数线是递减的,时长跨度也是不断减小。


评分细分箱式图


最后,我再按总排名先后结合时长做了张散点分布图,通过线性回归得到一条斜率为负的线性公式,说明从总体数据上的确是呈递减趋势,而且区域收敛状态(因为再难看也根本不会进热门,连观众都没有了)

按评分排名时长分布图,线性拟合图

以上这些基于的是热门电影数据,所以数据量少,有些结论只能猜测,而且本文也没引用一些专业的电影知识辅佐观点,所以我称之为全死角分析。但是局部很多时候也能反应总体,倒也不完全是管中窥豹。以后随着自身技术的改进和数据量的增大,会更加深入的以专业的视角去发掘信息,呈现真正多角度的分析。下篇会着重于文本分析,会分析下热门电影的制作发行公司的概况,以及对本文做有价值的补充。

本文最后再顺便推荐今年的几部电影

剧情:大象席地而坐

/悬疑:网络迷踪

/历史:特工

/犯罪:祈祷落幕时

/动作:铁雨

/喜剧/爱情:花牌情缘系列

/犯罪:罪人

/动画:超人总动员2

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容