白蛇-缘起 影评分析

声明:本文为原创,仅供学习交流,转载请标明出处,若有侵权请及时告知删除。


数据获取:

数据来源:猫眼电影

首先要获取数据,因为网页的评论只能看到10条,显然不够,于是准备从M端抓包找到评论接口。

获取接口数据

接口中对我们本次抓取主要有用的参数是offset偏移量以及时间戳,这两个条件限制了抓取的条数。

获取内容数据

这里有用户评论的相关数据,我们选取了评论内容、用户名、评分、评论时间、评论获赞量、评论回复量的数据。


接下来导入python的requests包、json包,开始获取分析的数据:

定义函数

多次调试之后,发现一个时间戳下最多显示1000条评论,所以每次获取1000条后,导出最后一条的评论时间戳,修改url后继续抓取。

保存结果

数据可视化:

总共获取24700+条评论数据:

结果

评分比列:

首先我们来看下评分的分布状况:

代码如下:

代码


评分比列图

我们可以看出总体上满意程度很高,87%的好评率对国漫电影来说,表现的也相当出色了。当然不排除购票去影院观影的看官本身对该电影的喜欢程度就很高。而且我们留意到给出6分以及下的占据了3.6%,那么这部分观众评论了些什么,笔者会在文末给予分析。


时间序列:
采用matplotlib,我们按照小时为单位,汇总数据,部分代码如下

代码
截取20日~25日评论的流量趋势图

从可视化结果来看评论集中在“茶余饭后”,忙碌了一天,下班来场愉快的电影。晚上黄金时间(8:00pm~10:00pm)各位看官也是纷纷畅所欲言。


评论字数分布:

评论字数分布图

代码如下:

代码

可以看出,白蛇的评论用户评论字数集中在20字以内,根据“长尾效应”的解释,我们也可以看出五十字以上“走心”评论也是比较多的。我们接下来看看这些评论都说了些什么呢?

词云图:

部分代码如下:

代码

需注意:scale参数直接影响了词云图出图的像素清晰度,在图比较大的时候,值可以设置的高一点

《白蛇-缘起》词云图

纵观所有评论,“好看”,“国漫”,“画面”依然是这部电影的代名词,看官的评价还是不错的,笔者去看的时候也被画风惊艳到了。接下来我们依然通过词云图来看下,给出差评的观众都在说些什么呢?


评分6分及以下的词云图

针对低评分的看官,大家火力似乎都集中在剧情上了。近于俗套似乎也是国漫的通病,路漫漫其修远兮。笔者认为19年开年的这个动漫作品总体表现超出了自己的心里预期。还是比较期待国漫的发展的!

当然针对与评论的分析还有很多种方式,比如针对文本的情感分析,展示的维度也是多种多样,大家有什么好的分析角度,欢迎留言,一起学习参考。

                                                                                                                                             K.文

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容