Scrapy框架学习2

yield关键字

  yield<——>生成器

   生成器是一个不断产生值的函数

   包含yield语句 的函数是一个生成器


生成器每次产生一个值(yield语句),函数被冻结,被唤醒后再产生一个值。


生成器 vs.列表——>


更节省存储空间 /响应更迅速 /使用更灵活

Scrapy爬虫的使用步骤

1.创建一个工程和Spider模板

2.编写Spider

3.编写Item Pipeline

4.优化配置策略

Scrapy爬虫的使用步骤 

    1.  Request类

            Request对象表示一个HTTP请求

            由Spider生成,downloader执行


     2.Response类

        Response对象表示一个HTTP响应

        由Downloader生成,Spider执行

       3.Item类 

          Item对象表示从html页面中提取的信息内容
          由Spider生成,由Item Pipeline处理

           Item类似字典类型,可以按照字典类型操作

spider提取信息的方法

          Beautiful Soup

          lxml

          re

         XPath Selector

         CSS Selector


                



   

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容