webmagic中级:(三)

这里呢,我们会说一下webmagic 的第三个核心,shceduler,管理器,他在webmagic整体框架中主要实现的是对url 的一系列管理操作,也就是去重,过滤,分发等一系列行为。


这个呢就是我们所看到的的核心包里面的东西了,里面一共有2个接口,2个类,1个抽象类。我们还是挑重点看!


scheduler接口

  这个里面只有两个方法,一个是push,推送! 一个是poll ! 

    push 呢,方法主要是负责推送,在spider 添加地址的时候,会将url 封装成request,并且推送给scheduler,只不过在这里有一点点区别的就是,去重的操作,不是在scheduler 来进行的操作,而是spider 里面来进行完成的一部分才做,这里只是一个url 存储机制吧! 查看了源码才知道自己以前的一部分理解完全是有点问题的! 

如果这些呢,都不太符合你的需求的话,在webmagic-extension里面还存在很多的哦,总有一个适合你!

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 前言 scrapy是python界出名的一个爬虫框架。Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应...
    以后的以后_hzh阅读 6,880评论 0 14
  • 引言 在上篇使用Scrapy爬取知乎用户信息我们编写了一个单机的爬虫,这篇记录了使用Scrapy-Redis将其重...
    朱晓飞阅读 11,712评论 1 24
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 136,260评论 19 139
  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 176,968评论 25 709
  • 创业公司最难的一点就是团队成员之间的互相信任,尤其是高管之间的。但是信任恰恰又是一切合作的基础,如果连最基本的信任...
    老邢Thierry阅读 4,440评论 2 50

友情链接更多精彩内容