《Redis深度历险》读书笔记(3)

布隆过滤器

使用HyperLogLog来进行数量估计可以解决很多精确度不高的统计需求,但是这种数据结构只提供了pfadd和pfcount方法,所以没有办法直到某一个值是不是已经在HyperLogLog里面了

  • 场景

    • 向客户推送新闻内容时,如何去掉那些已经看过的内容?

    • 几种方法

      1. 推荐系统推荐新闻时会从每个用户的历史记录里进行筛选,过滤掉那些已经存在的记录。

        • 当用户量很大,每个用户看过的新闻又很多时,这种方法的性能会跟不上,如果历史记录存储在关系数据库里,去重就需要频繁地对数据库进行 exists 查询,当系统并发量很高时,数据库是很难扛住压力的。
      2. 将历史记录全部缓存起来

        • 存储空间随着时间线性增长, 短时间内可能可以撑住,但是时间长了之后,需要的存储空间太大,还是要到数据库中查询,性能又跟不上了
  • 布隆过滤器是什么?

    • 布隆过滤器可以理解为一个不怎么精确的 set 结构,当你使用它的 contains 方法判断某个对象是否存在时,它可能会误判。但是只要参数设置的合理,它的精确度可以控制的相对足够精确,只会有小小的误判概率。但是当布隆过滤器说某个值存在时,这个值可能不存在;当它说不存在时,那就肯定不存在。
    • 在上面的场景中,布隆过滤器能准确过滤掉那些已经看过的内容,那些没有看过的新内容,它也会过滤掉极小一部分 (误判),但是绝大多数新内容它都能准确识别。
  • Redis 中的布隆过滤器

    • 布隆过滤器是一个插件, 需要在Redis 4.0 以上才能使用

    • 基本使用

      • 布隆过滤器有二个基本指令,bf.add 添加元素,bf.exists 查询元素是否存在,它的用法和 set 集合的 saddsismember 差不多。

      • bf.add 只能一次添加一个元素,如果想要一次添加多个,就需要用到 bf.madd 指令。同样如果需要一次查询多个元素是否存在,就需要用到 bf.mexists 指令。

      • Redis 其实还提供了自定义参数的布隆过滤器,需要我们在 add 之前使用bf.reserve指令显式创建。如果对应的 key 已经存在,bf.reserve会报错。bf.reserve有三个参数,分别是 key, error_rate和initial_size。错误率越低,需要的空间越大。initial_size参数表示预计放入的元素数量,当实际数量超出这个数值时,误判率会上升。

      • 所以需要提前设置一个较大的数值避免超出导致误判率升高。如果不使用 bf.reserve,默认的error_rate是 0.01,默认的initial_size是 100。

      127.0.0.1:6379> bf.add test user1
      (integer) 1
      127.0.0.1:6379> bf.add test user2
      (integer) 1
      127.0.0.1:6379> bf.add test user3
      (integer) 1
      127.0.0.1:6379> bf.exists test user1
      (integer) 1
      127.0.0.1:6379> bf.exists test user2
      (integer) 1
      127.0.0.1:6379> bf.exists test user3
      (integer) 1
      127.0.0.1:6379> bf.exists test user4
      (integer) 0
      127.0.0.1:6379> bf.madd test user4 user5 user6
      1) (integer) 1
      2) (integer) 1
      3) (integer) 1
      127.0.0.1:6379> bf.mexists test user4 user5 user6 user7
      1) (integer) 1
      2) (integer) 1
      3) (integer) 1
      4) (integer) 0
      
    • 注意事项

      • 布隆过滤器的initial_size估计的过大,会浪费存储空间,估计的过小,就会影响准确率
      • 布隆过滤器的error_rate越小,需要的存储空间就越大
  • 布隆过滤器的原理

    • 每个布隆过滤器对应到 Redis 的数据结构里面就是一个大型的位数组和几个不一样的无偏 hash 函数。

    • 添加操作

      • 向布隆过滤器中添加 key 时,会使用多个 hash 函数对 key 进行 hash 算得一个整数索引值然后对位数组长度进行取模运算得到一个位置,每个 hash 函数都会算得一个不同的位置。再把位数组的这几个位置都置为 1 就完成了 add 操作。
    • 判断是否存在

      • 向布隆过滤器询问 key 是否存在时,跟 add 一样,也会把 hash 的几个位置都算出来,看看位数组中这几个位置是否都为 1,只要有一个位为 0,那么说明布隆过滤器中这个 key 不存在。如果都是 1,这并不能说明这个 key 就一定存在,只是极有可能存在,因为这些位被置为 1 可能是因为其它的 key 存在所致。
  • 空间占用估计

    • 布隆过滤器有两个参数,第一个是预计元素的数量 n,第二个是错误率 f。
    k=0.7*(l/n)  # 约等于
    f=0.6185^(l/n)  # ^ 表示次方计算,也就是 math.pow
    
    • 从公式中可以看出
      1. 位数组相对越长 (l/n),错误率 f 越低,这个和直观上理解是一致的
      2. 位数组相对越长 (l/n),hash 函数需要的最佳数量也越多,影响计算效率
      3. 当一个元素平均需要 1 个字节 (8bit) 的指纹空间时 (l/n=8),错误率大约为 2%
      4. 错误率为 10%,一个元素需要的平均指纹空间为 4.792 个 bit,大约为 5bit
      5. 错误率为 1%,一个元素需要的平均指纹空间为 9.585 个 bit,大约为 10bit
      6. 错误率为 0.1%,一个元素需要的平均指纹空间为 14.377 个 bit,大约为 15bit
  • 其它应用

    • 在爬虫系统中,我们需要对 URL 进行去重
    • NoSQL查询中过滤不存在的列,减少IO请求数量
    • 邮箱系统的垃圾邮件过滤功能
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,463评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,868评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,213评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,666评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,759评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,725评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,716评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,484评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,928评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,233评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,393评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,073评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,718评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,308评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,538评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,338评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,260评论 2 352

推荐阅读更多精彩内容