登录注册写文章

Scrapy是一个爬虫框架 20190519

Scrapy是一个爬虫框架 20190519

spider：解析downloader返回的response，产生爬取项scraped item，产生额外的爬取请求

item piplines：以流水线形式处理spider产生的爬取项，清理，检验，去重，将数据存储到数据库。

download middleware:修改engine，scheduler,downloader的请求或响应

scrapy -h startproject, genspider,settings,crawl,list,shell

1:建立一个爬虫工程和模板: scrapy startproject BaiduStocks

2：编写spider : cd BaiduStocks scrapy genspider example example.com

3：编写 item pipeline

4：优化配置策略

request 类 class scrapy.http.Reqeust() 属性和方法：.url, .method, .headers, .body, .meta, .copy()

response类 class scrapy.http.Response()属性和方法：.url, .status, .headers, .body, .flags, .request, .copy()

scrapy 支持多种html解析方法：Beatiful Soup, lxml, re, XPath Selector, CSS Selector.

def gen(n):

for i in range(n):

yield i**2

最后编辑于：2019.05.19 23:35:16

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

Scrapy爬虫框架解析
Scrapy 爬虫框架解析工作流程根据需要爬取的开始链接，engine交给downloader下载网页。 do...
LionelDong阅读 3,780评论 0赞 2
DC-01:爬虫框架scrapy入门
本主题主要是scrapy入门，包含内容如下： 1. Scrapy框架环境搭建； 2. 理解scrapy框架结...
杨强AT南京阅读 5,242评论 0赞 10
没有眼泪的大人
关键词：广告（交代身份）密码（导火线）稀释（人物发生转变）琪儿的生活是被很多人羡慕的。她的长相犹如芭比娃娃...
说主任阅读 1,378评论 0赞 0
入埃及记（十）
黑白沙漠（五）那些年，我们梦想过的环游世界两天一夜的旅行很短暂，第二天中午，我们就再度回到Zaki的家，与新来...
夏槿11阅读 1,280评论 0赞 1
JavaScript类型检测
typeof 适合基本类型和函数类型，遇到null失效 instanceof 判断左边的原型链上是否有右边构造函数...
yyyzhen阅读 1,449评论 0赞 0

赞1赞

赞赏

手机看全文