算法

过滤器

如何在100 亿URL中判断某个URL是否存在

1. 布隆过滤器

使用:布隆过滤器。可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法,缺点是有一定的误识别率和删除困难
效果:文章提到:如果将 100 亿 url(64bit) 放到 HashMap 中需要 640GB,那么使用布隆过滤器后又需要多少空间呢?答案是约等于 23 GB

2. 布谷过滤器-cuckoo filter

优化:布隆过滤器只支持新增、查找,布谷过滤器支持删除

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 在前面的二分查找示例中,每当用户登录Facebook时,Facebook都必须在一个庞大的数组中查找,核实其中是否...
    非问阅读 229评论 0 0
  • 布隆过滤器 不安全网页的黑名单包含100亿个黑名单网页,每个网页的URL最多占用64字节,现在想要实现一种网页过滤...
    亼亼阅读 364评论 0 0
  • 其实我喜欢的不是花,而是花里的时间,花里的四季,花里的好天气与花开花落间斑驳了的倾谈回忆。
    拾染z阅读 262评论 0 1
  • 整个城市在这个时刻静了下来,于是我听到了久违的手表指针发出的的嘀嗒声,不禁想起了以前那些挑灯奋战的夜晚,那些所谓的...
    Modest_Kevin阅读 181评论 0 2
  • 你已不是17岁的时候,可能那个人笑起来好可爱,眼睛弯弯的。 可能那个人打篮球很帅,衬衣很干净,就喜欢他。 但现在喜...
    禾子筱敏阅读 247评论 0 0