简短Python爬虫爬取《人民的名义》豆瓣书评,附源代码和逐行解释

第一步,查看要爬取的网站:https://book.douban.com/subject/26952485/collections

明确要爬取的信息,以及查看对应的xpath

本爬虫提取如下的五条信息:

1. 用户ID

2. 用户所在城市

3. 评论发布日期

4. 用户评分

5. 用户评论

第二步,查询xpath,大家可以用浏览器的开发者工具提取对应的xpath,此处省略具体步骤一千字.......。

第三步,分享代码,并附加逐行解释(井号之后为注释)。


源代码百度网盘链接:http://pan.baidu.com/s/1o8I3UDs


#下面这几步import是载入Python中对应的包,除了requests之外,其余都是常用的包。目前有些人写爬虫喜欢用scrapy,本人更喜欢用requests,简单粗暴,单刀直入。

import requests 

import time

import json

import csv

import sys

reload(sys)

sys.setdefaultencoding("utf-8")

from lxml import etree

#下面这两步的意思是把爬取的数据存入csv文件,文件名为data.csv

csvfile = file('data.csv', 'wb')

writer = csv.writer(csvfile)

#因为数据在csv文件里面是按列排放的,所以下面的这行的意思是在第一行放上每列数据所代表的意思,这五列分别对应我们在上述第一步里面提到的所需要爬取的五个信息。

writer.writerow(["user_id","city","date","rating","comment"])

#下面这一步我故意把循环弄成很多次,之为了翻页能翻到最后一页,下面有语句判断如果翻到最后一页,就自动终止这个循环

for i in xrange(0,1000000,20):

url = "https://book.douban.com/subject/26952485/collections?start=" + str(i) #每次i改变都代表翻到了新的一页

r=requests.get(url) #用requests函数来发送请求

content=r.content #读取网页内容

page=etree.HTML(content) #这步是把读取的内容转为HTML 格式方便下面用xpath来提取信息

table = page.xpath('//*[@id="collections_tab"]//tr') #因为评论是以表格的形式逐行排列的,所以这里先提取所有行的信息。

#这下面意思是是如果没有翻到最后一页就提取每页的信息

if table != []:

for row in table: #用循环来提取每行的信息

user_id = "".join(row.xpath('./td[2]/div/a/@href')) #提取用户ID

city = "".join(row.xpath('./td[2]/div/a/span[2]/text()')) #提取用户所在城市

date = "".join(row.xpath('./td[2]/p[1]/span[1]/text()')).strip() #提取评论发布时间

rating = "".join(row.xpath('./td[2]/p[1]/span[2]/@class')) #提取评分

#有时候评分之前会插上书签,所以会改变评分的xpath,下面是来判断,如果有书签的话,就换一个xpath来提取评分信息

if rating == "":

rating = "".join(row.xpath('./td[2]/p[1]/span[3]/@class'))

comment = "".join(row.xpath('./td[2]/p[2]/text()')).strip() #提取具体评论

writer.writerow([user_id,city,date,rating,comment]) #将提取的信息写入csv文件

#下面这两步的作用是判断是否到了最后一页,如果到了最后一页,那么提取的内容就为空,那么就终止主循环

else:

break

#下面这步是在屏幕上打印出具体翻到了那一页以及打印出具体的时间

print 'page %d data was processed !!!'%i + time.strftime("%Y-%m-%d %H:%M:%S", time.localtime(time.time()))

第四步,查看数据。爬虫运行完毕之后会在当前文件夹下生成一个data.csv的文件。打开之后看到的数据是这样的:

咦?city和comment那两栏怎么会出现乱码呢?

本人在网上搜索一番之后才发现,这是因为爬虫里面我指定的编码格式是UTF-8, 然后EXCEL的编码格式不是这样的,因为city和comment对应的数据是中文,所以会出现乱码。如果数据是英文,那么不会出现乱码。解决乱码的方法在第五步给出。

第五步,解决乱码。右键点击data.csv,用记事本打开csv文件。见证奇迹的时刻到了,我们看到了漂亮的中文(如下第一图所示)。然后copy全部数据粘贴在excel里面按照逗号将数据分隔开就大功告成了(如下第二图所示)。


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,590评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 86,808评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,151评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,779评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,773评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,656评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,022评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,678评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,038评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,659评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,756评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,411评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,005评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,973评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,053评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,495评论 2 343

推荐阅读更多精彩内容