Python爬虫入门 | 4 爬取豆瓣TOP250图书信息

先来看看页面长啥样的:https://book.douban.com/top250

我们将要爬取哪些信息:书名、链接、评分、一句话评价……

1. 爬取单个信息

我们先来尝试爬取书名,利用之前的套路,还是先复制书名的xpath:

得到第一本书《追风筝的人》的书名xpath如下:

//*[@id="content"]/div/div[1]/div/table[1]/tbody/tr/td[2]/div[1]/a

得到xpath,我们就可以按照之前的方法来尝试一下:

返回的竟然是空值,这就很尴尬了。

这里需要注意,浏览器复制的 xpath 信息并不是完全可靠的,浏览器经常会自己在里面增加多余的 tbody 标签,我们需要手动把这些标签删掉。

修改 xpath 后再来尝试,结果如下:

切记:浏览器复制 xpath 不是完全可靠,看到 tbody 标签特别要注意。

分别复制《追风筝的人》、《小王子》、《围城》、《解忧杂货店》的 xpath 信息进行对比:

//*[@id="content"]/div/div[1]/div/table[1]/tbody/tr/td[2]/div[1]/a//*[@id="content"]/div/div[1]/div/table[2]/tbody/tr/td[2]/div[1]/a//*[@id="content"]/div/div[1]/div/table[3]/tbody/tr/td[2]/div[1]/a//*[@id="content"]/div/div[1]/div/table[4]/tbody/tr/td[2]/div[1]/a

比较可以发现书名的 xpath 信息仅仅 table 后的序号不一样,并且跟书的序号一致,于是去掉序号(去掉 tbody),我们可以得到通用的 xpath 信息:

//*[@id=“content”]/div/div[1]/div/table/tr/td[2]/div[1]/a

好了,我们试试把这一页全部书名爬下来:

2.爬取多个信息

分别复制《追风筝的人》、《小王子》、《围城》、《解忧杂货店》评分的 xpath 信息进行对比:

//*[@id="content"]/div/div[1]/div/table[1]/tbody/tr/td[2]/div[2]/span[2]//*[@id="content"]/div/div[1]/div/table[2]/tbody/tr/td[2]/div[2]/span[2]//*[@id="content"]/div/div[1]/div/table[3]/tbody/tr/td[2]/div[2]/span[2]//*[@id="content"]/div/div[1]/div/table[4]/tbody/tr/td[2]/div[2]/span[2]

相信你已经可以秒写出爬取全部评分的xpath了:

//*[@id=“content”]/div/div[1]/div/table/tr/td[2]/div[2]/span[2]

把评分的xpath放入之前的代码,运行:

现在我们再把书名和评分同时爬取下来:

这里我们默认书名和评分爬到的都是完全的、正确的信息,这种默认一般情况没问题,但其实是有缺陷的,如果我们某一项少爬或多爬了信息,那么两种数据的量就不一样了,从而匹配错误。比如下面的例子:

书名xpath 后的@title 改为 text(),获取的文本数量与评分数量不一致,出现匹配错位。

如果我们以每本书为单位,分别取获取对应的信息,那肯定完全匹配。

书名的标签肯定在这本书的框架内,于是我们从书名的标签向上找,发现覆盖整本书的标签(左边网页会有代码包含内容的信息),把xpath 信息复制下来:

//*[@id="content"]/div/div[1]/div/table[1]

我们将整本书和书名的xpath进行对比

//*[@id=“content”]/div/div[1]/div/table[1]  #整本书//*[@id=“content”]/div/div[1]/div/table[1]/tr/td[2]/div[1]/a  #书名//*[@id=“content”]/div/div[1]/div/table[1]/tr/td[2]/div[2]/span[2]  #评分

不难发现,书名和评分 xpath 的前半部分和整本书的 xpath 一致的,

那我们可以通过这样写 xpath 的方式来定位信息:

file=s.xpath(“//*[@id=“content”]/div/div[1]/div/table[1]”)title =div.xpath(“./tr/td[2]/div[1]/a/@title”)score=div.xpath(“./tr/td[2]/div[2]/span[2]/text()”)

在实际的代码中来看一下:

刚刚我们爬了一本书的信息,那如何爬这个页面所有书呢?很简单啊,把 xpath 中后面定位的序号去掉就ok。

终于看到庐山真面目了,不过,等等~

title = div.xpath("./tr/td[2]/div[1]/a/@title")[0]score=div.xpath("./tr/td[2]/div[2]/span[2]/text()")[0]

为什么这两行后面多了个 [0] 呢?我们之前爬出来的数据是列表,外面带个方框,看着非常难受,列表只有一个值,对其取第一个值就OK。如果不熟悉列表的知识,可以回去补补。

接下来就是按照这样的方式多爬几个元素啦!

有一个点需要注意的是:

num=div.xpath("./tr/td[2]/div[2]/span[3]/text()")[0].strip("(").strip().strip(")")

这行代码用了几个 strip() 方法,()里面表示要删除的内容,strip(“(”) 表示删除括号, strip() 表示删除空白符。

嗯,已经把一个页面搞定了,接下来需要,把所有页面的信息都爬下来。

3.翻页,爬取所有页面信息

先来看一下翻页后url是如何变化的:

https://book.douban.com/top250?start=0    #第一页https://book.douban.com/top250?start=25  #第二页https://book.douban.com/top250?start=50  #第三页

url 变化的规律很简单,只是 start=() 的数字不一样而已,而且是以每页25为单位,递增25,这不正是每页的书籍的数量吗?于是,我们只需要写一个循环就可以了啊。

for a in range(10):  url = 'https://book.douban.com/top250?start={}'.format(a*25)  #总共10个页面,用 a*25 保证以25为单位递增

这里要强调一下 Python range() 函数

基本语法:range(start, stop, step)

start:计数从 start 开始。默认是从 0 开始。例如 range(5) 等价于range(0,5);

end:计数到 end 结束,但不包括 end。例如:range(0,5)是 [0,1,2,3,4] 没有5

step:步长,默认为1。例如:range(0,5) 等价于 range(0,5,1)

>>>range(10)    #从 0 开始到 10 (不包含)[0, 1, 2, 3, 4, 5, 6, 7, 8, 9] >>> range(1, 11)    #从 1 开始到 11 (不包含)[1, 2, 3, 4, 5, 6, 7, 8, 9, 10] >>> range(0, 30, 5)    #从0到30(不包含),步长为5 [0, 5, 10, 15, 20, 25]

加上循环之后,完整代码如下:

from lxml import etreeimport requestsimport timefor a in range(10):    url = 'https://book.douban.com/top250?start={}'.format(a*25)    data = requests.get(url).text    s=etree.HTML(data)    file=s.xpath('//*[@id="content"]/div/div[1]/div/table')    time.sleep(3)    for div in file:        title = div.xpath("./tr/td[2]/div[1]/a/@title")[0]        href = div.xpath("./tr/td[2]/div[1]/a/@href")[0]        score=div.xpath("./tr/td[2]/div[2]/span[2]/text()")[0]        num=div.xpath("./tr/td[2]/div[2]/span[3]/text()")[0].strip("(").strip().strip(")").strip()        scrible=div.xpath("./tr/td[2]/p[2]/span/text()")        if len(scrible) > 0:            print("{},{},{},{},{}\n".format(title,href,score,num,scrible[0]))        else:            print("{},{},{},{}\n".format(title,href,score,num))

来运行一下:

请务必要自己练习几遍,你觉得自己看懂了,还是会出错,不信我们赌五毛钱。

Python 的基础语法很重要,没事的时候多去看看:字符串、列表、字典、元组、条件语句、循环语句……

编程最重要的是实战,比如你已经能够爬TOP250的图书了,去试试TOP250电影呢。

好了,这节课就到这里!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,014评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,796评论 3 386
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,484评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,830评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,946评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,114评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,182评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,927评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,369评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,678评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,832评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,533评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,166评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,885评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,128评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,659评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,738评论 2 351

推荐阅读更多精彩内容