来源:
pyquery爬取豆瓣读书
url = 'https://book.douban.com/tag/{tag}?start={num}&type=T'
resp = requests.get(url.format(tag='小说',num=0))
p_doc = pq(resp.text)
"""
class="paginator"的div节点
选取div中为a的直接子节点
从所有的a节点中选择最后一个a节点。
获取这个a节点的文本内容,即为总的页面数
"""
pages = p_doc('.paginator').children('a').eq(-1).text()
#获取该标签所有的页面网址
purls = []
for page in range(pages):
purl = url.format(tag='小说',num=page*20)
purls.append(purl)