使用python爬取流浪地球影评并制作词云，看看别人都说了些说什么

蹭个热度，看完电影后爬一下影评并作出词云。

img

本次影评取自豆瓣：
https://movie.douban.com/subject/26266893/

img

抓包

首先是拿到访问的url，一般先使用chrome浏览器自带的F12中的网络部分进行测试。好巧不巧的，点击XHR后直接拿到数据了，那就不搞什么乱七八糟的别的了。

img

下面开始分析这个请求的URL地址

https://movie.douban.com/subject/26266893/comments?start=20&limit=20&sort=new_score&status=P&comments_only=1

和搜索《流浪地球》结果的URL进行对比发现域名+subject+26266893都是一样的，所以这一块就是一个影片的唯一标示码了。

点击下一页抓包可以发现

start=40

，显然start就是显示的开始条数。然后去除后面的拼接部分大胆的使用以下地址：

https://movie.douban.com/subject/26266893/comments?start=20&limit=20
https://movie.douban.com/subject/26266893/comments?start=40&limit=20
...

所以如果爬取全部的话应该是

while True:
    url = f'https://movie.douban.com/subject/26266893/comments?start={20*i}&limit=20'
    requests.get(url)
    i += 1

当然这段代码中缺少了一个终止条件，由于没有直观的页码显示，所以按照正常逻辑来说，当拿不到数据的时候，代码就可以结束了。

数据解析

img

从IDE或者抓包工具中都能看到抓去到的东西的内容是个html

使用工具Xpath Helper可以获取到对应的Xpath是

//*[@id="comments"]/div/div[2]/p/span/text()

img

导入

from lxml import etree

使用以下几行就能获取到内容

from lxml import etree

response = requests.get(url).content  # 获取网页源码
html = etree.HTML(response)  # 将网页源码转换为XPath可以解析的格式
html.xpath('//*[@id="comments"]/div/div[2]/p/span/text()')

img

跳出While循环的条件

所以从上可以看出跳出While循环的条件就是拿到的内容为空
实际测试发现到12页之后就会出行

img

采用最简单的cookie来进行登录操作

img

把这里的cookie拿出来用就行了

获取数据部分代码

import time
import requests
from lxml import etree

i = 1
cookies = {
    'cookie': '_ga=GA1.2.368359059.1504513008; gr_user_id=70cd8d8e-33f4-451f-9d2f-485e0972848b; _vwo_uuid_v2=DA531159C0543E8ED34CDA9307F4F5D42|952eca647e4324910504987dd6b3b16c; viewed="25862578"; douban-fav-remind=1; bid=BbpSXh-2l0I; UM_distinctid=1688ebe76ed917-00fc3d8ad313ab-10306653-13c680-1688ebe76eed09; ll="118172"; CNZZDATA1272964020=1342263888-1524923548-https%253A%252F%252Fwww.baidu.com%252F%7C1549549736; ap_v=0,6.0; __utma=30149280.368359059.1504513008.1548583074.1549551675.6; __utmc=30149280; __utmz=30149280.1549551675.6.5.utmcsr=douban.com|utmccn=(referral)|utmcmd=referral|utmcct=/search; __utmb=30149280.1.10.1549551675; _pk_ref.100001.8cb4=%5B%22%22%2C%22%22%2C1549554516%2C%22https%3A%2F%2Fopen.weixin.qq.com%2Fconnect%2Fqrconnect%3Fappid%3Dwxd9c1c6bbd5d59980%26redirect_uri%3Dhttps%253A%252F%252Fwww.douban.com%252Faccounts%252Fconnect%252Fwechat%252Fcallback%26response_type%3Dcode%26scope%3Dsnsapi_login%26state%3DBbpSXh-2l0I%252523douban-web%252523https%25253A%252F%252Fwww.douban.com%252Fsearch%25253Fq%25253D%2525E6%2525B5%252581%2525E6%2525B5%2525AA%2525E5%25259C%2525B0%2525E7%252590%252583%22%5D; _pk_ses.100001.8cb4=*; douban-profile-remind=1; _pk_id.100001.8cb4=d2d47adf74234a9c.1504513005.8.1549554548.1549551671.; dbcl2="149765164:WENJVMTKslo"'}
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'}
f = open('wandering.txt', 'w')
while True:
    url = f'https://movie.douban.com/subject/26266893/comments?start={20*i}&limit=20'
    response = requests.get(url, cookies=cookies, headers=headers).content 
    html = etree.HTML(response)
    new_text_list = html.xpath('//*[@id="comments"]/div/div[2]/p/span/text()')
    f.writelines(new_text_list)
    if not new_text_list:
        break
    else:
        time.sleep(0.25)
        i += 1
        print(f'正在爬取第{20*i}条内容')
f.close()

img

制作词云

#!/usr/bin/env python
# -*- coding:utf-8 -*-
# Author:zhongxin
# datetime:2019/2/7 11:57 PM
import re  # 正则表达式库
import collections  # 词频统计库
import numpy as np  # numpy数据处理库
import jieba  # 结巴分词
import wordcloud  # 词云展示库
from PIL import Image  # 图像处理库
import matplotlib.pyplot as plt  # 图像展示库

with open('wandering.txt') as f:
    string_data = f.read()
# 文本预处理
pattern = re.compile(u'\t|\n|\.|-|:|;|\)|\(|\?|"')  # 定义正则表达式匹配模式
string_data = re.sub(pattern, '', string_data)  # 将符合模式的字符去除

# 文本分词
seg_list_exact = jieba.cut(string_data, cut_all=False)  # 精确模式分词
object_list = []
remove_words = [u'的', u'，', u'和', u'是', u'随着', u'对于', u'对', u'等', u'能', u'都', u'。', u' ', u'、', u'中', u'在', u'了',
                u'通常', u'如果', u'我', u'需要',u'也',u'电影','就']  # 自定义去除词库

for word in seg_list_exact:  # 循环读出每个分词
    if word not in remove_words:  # 如果不在去除词库中
        object_list.append(word)  # 分词追加到列表

# 词频统计
word_counts = collections.Counter(object_list)  # 对分词做词频统计
word_counts_top10 = word_counts.most_common(10)  # 获取前10最高频的词
print(word_counts_top10)  # 输出检查

# 词频展示
mask = np.array(Image.open('wordcloud.jpg'))  # 定义词频背景
wc = wordcloud.WordCloud(
    font_path='/System/Library/Fonts/STHeiti Medium.ttc',  # 设置字体格式
    mask=mask,  # 设置背景图
    max_words=200,  # 最多显示词数
    max_font_size=100  # 字体最大值
)

wc.generate_from_frequencies(word_counts)  # 从字典生成词云
image_colors = wordcloud.ImageColorGenerator(mask)  # 从背景图建立颜色方案
wc.recolor(color_func=image_colors)  # 将词云颜色设置为背景图方案
plt.imshow(wc)  # 显示词云
plt.axis('off')  # 关闭坐标轴
plt.show()  # 显示图像

img

数据获取部分代码

img

词云部分代码

img

本人对于Python学习创建了一个小小的学习圈子，为各位提供了一个平台，大家一起来讨论学习Python。欢迎各位到来Python学习群：`923414804`一起讨论视频分享学习。Python是未来的发展方向，正在挑战我们的分析能力及对世界的认知方式，因此，我们与时俱进，迎接变化，并不断的成长，掌握Python核心技术，才是掌握真正的价值所在。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 218,284评论 6赞 506
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,115评论 3赞 395
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 164,614评论 0赞 354
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,671评论 1赞 293
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,699评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,562评论 1赞 305
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,309评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,223评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,668评论 1赞 314
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,859评论 3赞 336
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,981评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,705评论 5赞 347
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,310评论 3赞 330
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,904评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,023评论 1赞 270
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,146评论 3赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,933评论 2赞 355