登录注册写文章

【爬虫实例】豆瓣年度书单数据抓取

【爬虫实例】豆瓣年度书单数据抓取

本实例讲解如何爬取豆瓣年度书单数据，本次需要根据链接下载图片并存储至指定文件夹。

目标网站：https://www.douban.com/doulist/114258184/

一、系统环境

win7

Python 3.8（64bit）

scrapy 2.0.1

二、思路分析

提取字段：书籍名称、评分、评价人数、作者、出版社、出版年、图片url，并且将图片下载至指定文件夹。

突破点：下载图片至指定文件夹

三、实现步骤

3.1创建项目

在cmd命令中输入下图所示的命令，创建项目。（一开始用了crawl的方法，会涉及到正则表达式，而翻页链接则超出了正则表达式，修改了很久，在正常情况下，用下图的方法创建项目即可，不要涉及正则。）

cd desktop #将文件夹切换至桌面

scrapy startproject ceshi #新建一个名为“ceshi”的项目

cd ceshi #将文件夹切换到ceshi

scrapy genspider ceshi_spider douban.com #新建一个名为“ceshi_spider”的文件

3.2编写代码

1、主要代码如图所示：

在编写的时候犯了个错误，class内部的引号没有写，写完之后正常。

因为原始字段中包含换行及空格，所以在字段中将其过滤：

item中的字段定义如图所示：

经测试打印结果正常：

3.3根据链接下载图片到指定文件夹

新定义了一个下载方法，在解析图片链接的时候，调用这个方法。

图片就源源不断的下载进来啦！

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

Python爬虫框架Scrapy入门与实践之爬取豆瓣电影Top250榜单
前言爬虫就是请求网站并提取数据的自动化程序，其中请求，提取，自动化是爬虫的关键。Python作为一款出色的胶水语...
王奥OX阅读 3,490评论 1赞 8
使用Python的scrapy框架进行爬虫（2）
Scrapy 框架简介 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用...
__method__阅读 979评论 0赞 2
基于Scrapy分布式爬虫的开发与设计
这个项目也是初窥python爬虫的一个项目，也是我的毕业设计，当时选题的时候，发现大多数人选择的都是网站类，实在是...
梦航韩语阅读 3,061评论 2赞 37
scrapy框架
scrapy框架Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广...
糖炒栗子_01c5阅读 2,922评论 0赞 2
正则表达式
1.RegExp对象： 1> RegExp是JavaScript中的一个内置对象（正则表达式）。用于规定在文本中检...
何wife阅读 159评论 0赞 0

赞1赞

赞赏

手机看全文