位图和布隆过滤器

位图

位图的概念

  • 位图(bitmap)其实就是哈希表的一种特殊情况。不同的是位图是通过二进制位来表示数据是否存在。
  • 位图比哈希表更加节省空间,只需要用一个二进制位就能表示一个数字。

位图的例子

  • 假设有1000万个范围在1-1亿的整数。如何快速查找某个整数是否出现在着这1000万个整数中。
  • 如果用哈希表去解决。我们可以创建一个长度为1亿,存储的数据类型为bool值的数组。将这1000万个整数对应的数组下标的数组元素设置成true。我们判断某个整数K是否出现在这1000万个整数中时,我们可以直接去取array[K]是否为true,来进行判断。
  • 如果用位图去解决,则更佳节省空间。表示true和false的bool值只需要用一个二进制位来表示就足够了。我们可以利用一个char类型的数组,char是一个字节,有8位,也就是说可以表示8个数组的有无。我们用取到的整数除以8,得到这个数字应该存储在哪个数组元素中后,再取这个整数与8的余数,就能得到这个数字在这个元素中的哪一位。取到对应的位上存储的bool值,即可以得出是否存在这个数字的结果。

布隆过滤器

布隆过滤器的产生

  • 位图的应用场景有一定的局限性,就是数据所在的范围不能太大。因为位图是用位来表示true和false的信息的。并不能像哈希表一样,数组中的元素为链表,存储多个数据的形式。因此当数据范围很大的时候,反而会比哈希表的内存占用还要大。
  • 由于上述的情况,我们就要对位图进行优化和改进。布隆过滤器就是一个很好的解决办法。

布隆过滤器的概念

  • 布隆过滤器的核心思路:使用多个哈希函数,计算多个哈希值,用多个位去记录数据的存在。

  • 当执行查询结果的时候,同样也是使用多个哈希函数,通过得到的多个哈希值取到多个位,如果所有的位中存储的都是true,则说明数据存在。如果有false的数据,则说明数据不存在。

  • 尽管用多个哈希值去判断,但仍然是存在误判的情况。但布隆过滤器误判有一个特点:只有判断起存在的情况时,才有可能发生误判,这个数据有可能是不存在的。换句话讲,就是判断结果是其不存在时,那就是真的不存在,不存在的情况是不会存在误判的。

  • 布隆过滤器的误判率和两个因素有关系。

    1.使用的哈希函数的个数。

    2.位图的大小。

  • 对于动态数据,随着数据不停的增长,布隆过滤器的误判率也会越来越高,因此布隆过滤器还需要支持动态扩容。当数据个数和位图大小的比例超过某个阈值时,我们需要重新申请一个新的位图。对于后进入的数据,我们将其放置在新的位图中。同样,要判断这个数据是否存在的话,需要查看多个位图,相应的执行效率也会降低。

布隆过滤器的例子

  • 利用布隆过滤器的特点,即判断数据不存在的情况是一定正确的。我们在查询某个数据时,可以先访问布隆过滤器,如果经过布隆过滤器判断数据不存在,也就不需要访问数据库去查询数据了,这样就减少了数据库的查询操作。
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,657评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,662评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,143评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,732评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,837评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,036评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,126评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,868评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,315评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,641评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,773评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,859评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,584评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,676评论 2 351

推荐阅读更多精彩内容