Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,我们只需要写少量的代码,就能够快速的抓取
Scrapy 使用了Twisted异步网络框架,可以加快我们的下载速度
异步:调用在发出之后,这个调用就有直接返回,不管有无结果
非阻塞:关注的是程序在等待调用结果(消息,返回值)时的状态,指在不能立刻得到结果之前,该调用不会阻塞当前线程
scrapy流程
Scrapy操作
1.创建一个scrapy项目
scrapy startproject 项目名
2.生成一个爬虫
scrapy genspider 爬虫名字 限制爬虫范围
3.启动爬虫 scrapy crawl 爬虫名字
4.提取数据
完善spider,使用xpath等方法
5.保存数据
pipeline中保存数据
logging模块使用
Scrapy实现翻页请求
item的应用
Scrapy shell的用法