Scrapy是一个爬虫框架 20190519

spider:解析downloader返回的response,产生爬取项scraped item,产生额外的爬取请求

item piplines:以流水线形式处理spider产生的爬取项,清理,检验,去重,将数据存储到数据库。

download middleware:修改engine,scheduler,downloader的请求或响应

scrapy -h startproject, genspider,settings,crawl,list,shell

1:建立一个爬虫工程和模板: scrapy startproject BaiduStocks

2:编写spider : cd BaiduStocks    scrapy genspider example example.com

3:编写 item pipeline

4:优化配置策略

request 类 class scrapy.http.Reqeust() 属性和方法:.url, .method, .headers, .body, .meta, .copy()

response类 class scrapy.http.Response()属性和方法:.url, .status, .headers, .body, .flags, .request, .copy() 

scrapy 支持多种html解析方法:Beatiful Soup, lxml, re, XPath Selector, CSS Selector.

def gen(n):

   for i in range(n):

    yield i**2


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Scrapy 爬虫框架解析 工作流程 根据需要爬取的开始链接,engine交给downloader下载网页。 do...
    LionelDong阅读 3,780评论 0 2
  • 本主题主要是scrapy入门,包含内容如下:  1. Scrapy框架环境搭建;  2. 理解scrapy框架结...
    杨强AT南京阅读 5,242评论 0 10
  • 关键词:广告(交代身份) 密码(导火线) 稀释(人物发生转变) 琪儿的生活是被很多人羡慕的。 她的长相犹如芭比娃娃...
    说主任阅读 1,378评论 0 0
  • 黑白沙漠(五) 那些年,我们梦想过的环游世界 两天一夜的旅行很短暂,第二天中午,我们就再度回到Zaki的家,与新来...
    夏槿11阅读 1,280评论 0 1
  • typeof 适合基本类型和函数类型,遇到null失效 instanceof 判断左边的原型链上是否有右边构造函数...
    yyyzhen阅读 1,449评论 0 0