爬取了 48048 条评论数据,解读 9.3 分的《毒液》是否值得一看?

11月,由汤姆·哈迪主演的“毒液:致命守护者”在国内上映,依托漫威的光环以及演员们精湛的演技,这部动作科幻片在猫眼评分得到豆瓣7.4的评分,口碑和票房都高于大多数同期上映的其他影片。

所以周日的时候跟基友去电影院去看了这场正邪共生的电影,100多人的影院座无虚席,不过看完之后对比其他漫威作品,我倒也没觉得有多大的惊喜,觉得猫眼上的9.3评分的感受不符。

头部的几条评论显然有些夸大,那大众对“毒液”感受是怎么呢?于是笔者动手开始分析起来。

获取数据

首先要获取数据,准备爬取猫眼上的电影评论作为本次分析样本,PC官网上只显示了电影的10条热门短评,显然不够,于是准备从M端抓包找到评论接口。

接口链接:

http://m.maoyan.com/mmdb/comments/movie/42964.json?v=yes&offset=15&startTime=2018-11-20%2019%3A17%3A16。

接口中对我们本次抓取主要有用的参数是offset偏移量以及日期,这两个条件限制了抓取的条数。分析接口结果:


这里有用户评论的相关数据,我们选取了地理位置(用户为授权无法获取)、评论内容、用户名、评分以及评论时间的数据,通过python的requests模块开始爬取。导入本次爬取需要的包,开始抓取数据。

`defget_data(url):

headers = {

'User-Agent':'Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1'}

html = requests.get(url, headers=headers)

ifhtml.status_code ==200:

returnhtml.content

else:

returnnone`

其次是解析Json数据,每个接口有15条评论数据,10条热门评论数据,我们将评论数据中用户名、城市名、评论内容、评分、评论时间依次解析出来,并返回。

`defparse_data(html):

json_data = json.loads(html)['cmts']

comments = []

try:

foriteminjson_data:

comment = {

'nickName': item['nickName'],

'cityName': item['cityName']if'cityName'initemelse'',

'content': item['content'].strip().replace('

',''),

'score': item['score'],

'startTime': item['startTime']

}

comments.append(comment)

returncomments

exceptExceptionase:

print(e)`

接着我们将获取到的数据保存到本地。此过程中,对接口url中时间的处理借鉴了其他博主的爬虫思路,将每次爬取的15条数据取最后一条的评论时间,减去一秒(防止重复),从该时间向前获取直到影片上映时间,获取所有数据。

`defsave():

start_time = datetime.now().strftime('%Y-%m-%d %H:%M:%S')

end_time ='2018-11-09 00:00:00'

whilestart_time > end_time:

url ='http://m.maoyan.com/mmdb/comments/movie/42964.json?_v_=yes&offset=15&startTime='+ start_time.replace(

' ','%20')

html =None

try:

html = get_data(url)

exceptExceptionase:

time.sleep(0.5)

html = get_data(url)

else:

time.sleep(0.1)

comments =parse_data(html)

start_time = comments[14]['startTime']

print(start_time)

start_time = datetime.strptime(start_time,'%Y-%m-%d %H:%M:%S') + timedelta(seconds=-1)

start_time = datetime.strftime(start_time,'%Y-%m-%d %H:%M:%S')

foritemincomments:

print(item)

withopen('files/comments.txt','a', encoding='utf-8')asf:

f.write(item['nickName']+','+item['cityName'] +','+item['content']+','+str(item['score'])+ item['startTime'] +'

')

if__name__ =='__main__':

url ='http://m.maoyan.com/mmdb/comments/movie/42964.json?_v_=yes&offset=15&startTime=2018-11-19%2019%3A36%3A43'

html = get_data(url)

reusults = parse_data(html)

save()`

最终抓取了48048条评论相关数据作为此次分析样本。 

数据可视化

数据可视化采用了pyecharts,按照地理位置制作了毒液观众群的分布图。部分代码如下:

`geo = Geo('《毒液》观众位置分布','数据来源:猫眼-Ryan采集', **style.init_style)

attr,value= geo.cast(data)

geo.add('', attr,value, visual_range=[0,1000],

visual_text_color='#fff', symbol_size=15,

is_visualmap=True, is_piecewise=False, visual_split_number=10)

geo.render('观众位置分布-地理坐标图.html')

data_top20 = Counter(cities).most_common(20)

bar = Bar('《毒液》观众来源排行TOP20','数据来源:猫眼-Ryan采集', title_pos='center', width=1200, height=600)

attr,value= bar.cast(data_top20)

bar.add('', attr,value, is_visualmap=True, visual_range=[0,3500], visual_text_color='#fff', is_more_utils=True,

is_label_show=True)

bar.render('观众来源排行-柱状图.html')`

从可视化结果来看,“毒液”观影人群以东部城市为主,观影的top5城市为深圳、北京、上海、广州、成都。 

观众地理位置分布图

观众来源排行TOP20

用户评论,词云图

只看观众分布无法判断大家对电影的喜好,所以我把通过jieba把评论分词,最后通过wordcloud制作词云,作为大众对该电影的综合评价。

` comments = []

withopen('files/comments.txt','r', encoding='utf-8')asf:

rows

= f.readlines()

try:

forrowinrows:

comment = row.split(',')[2]

ifcomment !='':

comments.append(comment)

# print(city)

except Exceptionase:

print(e)

comment_after_split = jieba.cut(str(comments), cut_all=False)

words =' '.join(comment_after_split)

#多虑没用的停止词

stopwords = STOPWORDS.copy()

stopwords.add('电影')

stopwords.add('一部')

stopwords.add('一个')

stopwords.add('没有')

stopwords.add('什么')

stopwords.add('有点')

stopwords.add('感觉')

stopwords.add('毒液')

stopwords.add('就是')

stopwords.add('觉得')

bg_image = plt.imread('venmo1.jpg')

wc = WordCloud(width=1024, height=768, background_color='white', mask=bg_image, font_path='STKAITI.TTF',

stopwords=stopwords, max_font_size=400, random_state=50)

wc.generate_from_text(words)

plt.imshow(wc)

plt.axis('off')

plt.show()

`

从最终的词云结果上来看,大多数观众还是对“毒液”很满意的。

想了解更多前沿技术,想获取最新免费编程资源视频源码笔记,小伙伴请往下看!

qun号是:八六四,六三四,八四五。qun内有很多开发工具,很多干货和技术资料分享!

如果您觉得此篇文章对您有帮助,欢迎关注微信公众号:大禹编程,您的支持是对我最大的鼓励!共同学习,共同进步

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,332评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,508评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,812评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,607评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,728评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,919评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,071评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,802评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,256评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,576评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,712评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,389评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,032评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,026评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,473评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,606评论 2 350

推荐阅读更多精彩内容