爬虫去重策略

  • 数据库去重
    MySQL 有唯一字段可以去重(这不是数据库去重的唯一方法),但是这种太过依赖MySQL,会导致 MySQL 压力大从而崩溃。

  • Scrapy 去重
    Scrapy 自带 set 集合,当程序结束会被清空,但是第二次运行还是会重复插入,适用于一次性的爬虫。

  • Redis 去重
    我们的项目应用的是 Scrapy 和 Redis 结合,如果URL已经存在于 Redis 就忽略。
    原理:已经爬取的 URL 地址经过编码后存入 Redis , 并且会做数据持久化,当爬虫再次启动时,会重新加载本地的数据,对爬虫的 URL 做去重。但是数据量较大的时候,会占用较多的内存空间。

  • Bloom Filter
    Bloom Filte 方法对 bitmap 进行改进,多重 hash 函数降低冲突但是这个其实应对海量数据才是效果最好的,因为随着存入的元素数量增加,误算率也随之增加。但是如果元素数量太少,用个 Hash Table 就行。

如果想判断一个元素是不是在一个集合里,一般想到的是将所有元素保存起来,然后通过比较确定。链表,树等等数据结构都是这种思路. 但是随着集合中元素的增加,我们需要的存储空间越来越大,检索速度也越来越慢。不过世界上还有一种叫作 Hash Table的数据结构。它可以通过一个 Hash 函数将一个元素映射成一个 Bit Array 中的一个点。这样一来,我们只要看看这个点是不是 1 就知道可以集合中有没有它了。这就是 Bloom Filte 的基本思想。
Hash 面临的问题就是冲突。假设 Hash 函数是良好的,如果我们的 Bit Array 列长度为 m 个点,那么如果我们想将冲突率降低到例如 1%, 这个 Hash Table 就只能容纳 m/100 个元素。显然这就不叫 Space-efficient 。解决方法也简单,就是使用多个 Hash,如果它们有一个说元素不在集合中,那肯定就不在。如果它们都说在,虽然也有一定可能性它们在说谎,不过直觉上判断这种事情的概率是比较低的


未完待续。。。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 我们还睡在床上的时候,他走进屋来关上窗户,我就看出他象是病了。他浑身哆嗦,脸色煞白,走起路来慢吞吞,似乎动一动都痛...
    人生漫步阅读 4,216评论 0 0
  • ……………… “……完成了,来,试着站起来。” 在尸鬼的搀扶下,塔利终于能借助这简陋的辅助器,实现真正意义上的“四...
    重颤青音阅读 1,293评论 0 1
  • 今天看到的一篇文章。 你现在再问我我的职业,我会答:我是一头人民教师。 就像一头拉磨的驴子,我每天纠结的就是,我转...
    想变成狗阅读 1,280评论 0 0
  • 我们每一个人的内在有一个世界,一个看不见的情感世界,当我们很愿意和一个人接近的时候,很愿意跟他链接的时候,...
    倾听的2580阅读 1,293评论 0 2