Scrapy框架学习1

scrapy爬虫框架结构

爬虫框架

    爬虫框架是实现爬虫功能的一个软件结构和功能组件的集合

    爬虫框架是一个半成品,能够帮助用户实现专业网络


“5+2”结构

     用户编写实现:(  入口:SPIDERS    出口:ITEMPIPELINES)

     已有实现:ENGINE,SCHEDULER,DOWNLOADER

     模块的功能

     1.Engine

             不需要用户修改

             控制所有模块之间的数据流

             根据条件触发事件

      2.Downloader

             不需要用户修改

             根据请求下载网页

       3.Scheduler

             不需要用户修改

             对所有爬取请求进行调度管理

       4.Downloader Middleware中间件

             目的:实施Engine、Scheluder、Downloader之间进行用户可配置的控制

             功能:修改丢弃新增请求或响应

             用户可以编写配置代码

       5.Spider(核心单元)

             解析Downloader返回的响应

             产生爬取项

             产生额外的爬取请求

        6.Item pipelines

             以流水线方式处理Spider产生的爬取项

             由一组操作顺序组成,类似流水线,每个操作是一个Item pipeline类型

             可能操作包括:清理、检验和查重爬取项中给的HTML数据、将数据存储到数据库

         7.Spider  Middleware

             目的:对请求和爬取项的再处理
             功能:修改丢弃新增请求或爬取项

Requests  vs.  Srcapy


Scrapy框架常用命令

     cmd -> scrapy -h ->进入scrapy命令行          
                                                scrapy常用命令

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 引言 在上篇使用Scrapy爬取知乎用户信息我们编写了一个单机的爬虫,这篇记录了使用Scrapy-Redis将其重...
    朱晓飞阅读 6,739评论 1 24
  • scrapy学习笔记(有示例版) 我的博客 scrapy学习笔记1.使用scrapy1.1创建工程1.2创建爬虫模...
    陈思煜阅读 12,774评论 4 46
  • scrapy是python最有名的爬虫框架之一,可以很方便的进行web抓取,并且提供了很强的定制型,这里记录简单学...
    bomo阅读 2,166评论 1 11
  • Scrapy的架构太重要了,单用一篇文章再总结整合下。前两张图来自《Learning Scrapy》,第三张图来自...
    SeanCheney阅读 2,829评论 2 5
  • 1 我有个朋友,年近40,平时工作不忙,但他很少刷朋友圈,也很少发朋友圈。常年关闭微信的这一功能,偶尔会开一下。 ...
    哎哟喂书屋阅读 558评论 0 0