pyquery爬取豆瓣读书

Pyquery官方文档

来源:
pyquery爬取豆瓣读书

url = 'https://book.douban.com/tag/{tag}?start={num}&type=T'

resp = requests.get(url.format(tag='小说',num=0))

p_doc = pq(resp.text)


"""
class="paginator"的div节点
选取div中为a的直接子节点
从所有的a节点中选择最后一个a节点。
获取这个a节点的文本内容,即为总的页面数
"""
pages = p_doc('.paginator').children('a').eq(-1).text()

#获取该标签所有的页面网址
purls = []

for page in range(pages):
    purl = url.format(tag='小说',num=page*20)
    purls.append(purl)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。