布隆过滤器

  1. 什么是布隆过滤器?

布隆过滤器(BloomFilter)是由一个叫“布隆”的小伙子在1970年提出的,它是一个很长的二进制向量,主要用于判断一个元素是否在一个集合中。

在介绍原理之前,要先讲一下Hash函数的概念。

我们在Java中的HashMap,HashSet其实也接触过hashcode()这个函数,

哈希函数是可以将任意大小的输入数据转换成特定大小的输出数据的函数,转换后的数据称为哈希值。

哈希函数有以下特点:
a. 如果根据同一个哈希函数得到的哈希值不同,那么这两个哈希值的原始输入值肯定不同。
b. 如果根据同一个哈希函数得到的两个哈希值相等,两个哈希值的原始输入值有可能相等,有可能不相等。

布隆过滤器是由一个很长的二进制向量和一系列的哈希函数组成。那么布隆过滤器是怎么判断一个元素是否在一个集合中的呢?
假设布隆过滤器的底层存储结构是一个长度为16的位数组,初始状态时,它的所有位置都设置为0。


image.png

当有变量添加到布隆过滤器中,通过K个映射函数将变量映射到位数组的K个点,并把这K个点的值设置为1(假设有三个映射函数)。


image.png

查询某个变量是否存在的时候,我们只需要通过同样的K个映射函数,找到对应的K个点,

判断K个点上的值是否全都是1,如果全都是1则表示很可能存在,

如果K个点上有任何一个是0则表示一定不存在。

布隆过滤器存在一定的误判

不能删除布隆过滤器里的元素

因为在位数组上的同一个点有可能有多个输入值映射,如果删除了会影响布隆过滤器里其他元素的判断结果。

  1. 布隆过滤器的优缺点

优点:
在空间和时间方面,都有着巨大的优势。

因为不是存完整的数据,是一个二进制向量,能节省大量的内存空间,

时间复杂度方面,是根据映射函数查询,假设有K个映射函数,那么时间复杂度就是O(K)。
因为存的不是元素本身,而是二进制向量,所以在一些对保密性要求严格的场景有一定优势。

缺点:
存在一定的误判。

存进布隆过滤器里的元素越多,误判率越高。
不能删除布隆过滤器里的元素。

随着使用的时间越来越长,因为不能删除,存进里面的元素越来越多,占用内存越来越多,误判率越来越高,最后不得不重置。

  1. 应用场景

用于缓解缓存穿透。

缓存穿透的问题主要是因为传进来的key在Redis中是不存在的,那么就会直接打在DB上,造成DB压力增大。

针对这种情况,可以在Redis前加上布隆过滤器,预先把数据库中的数据加入到布隆过滤器中

因为布隆过滤器的底层数据结构是一个二进制向量,所以占用的空间并不是很大。

在查询Redis之前先通过布隆过滤器判断是否存在,如果不存在就直接返回,

如果存在的话,按照原来的流程还是查询Redis,Redis不存在则查询DB。

这里主要利用的是布隆过滤器判断结果是不存在的话就一定不存在这一个特点,

但是由于布隆过滤器有一定的误判,所以并不能说完全解决缓存穿透,但是能很大程度缓解缓存穿透的问题。

  1. 布隆过滤器插件

在Redis4.0后,官方提供了布隆过滤器的插件功能,布隆过滤器可以作为一个插件加载到Redis服务器直接使用。

安装完Redis之后,下载插件,使用git命令拉取:

git clone https://github.com/RedisBloom/RedisBloom.git

拉取下来之后会得到一个RedisBloom的项目。

然后cd到文件夹/RedisBloom,使用make命令编译。

编译完成后生成一个redisbloom.so文件。

在启动Redis时,加载布隆过滤器模块到服务器中:

./src/redis-server --loadmodule /usr/local/RedisBloom/redisbloom.so

最后使用客户端测试一下:

$ ./src/redis-cli 

127.0.0.1:6379> bf.add user kg
(integer) 1
127.0.0.1:6379> bf.add user ak
(integer) 1
127.0.0.1:6379> bf.exists user ak
(integer) 1
127.0.0.1:6379> bf.exists user tt
(integer) 0

布隆过滤器的基本指令如下:
bf.add 添加元素到布隆过滤器
bf.exists 判断元素是否在布隆过滤器
bf.madd 添加多个元素到布隆过滤器
bf.mexists 判断多个元素是否在布隆过滤器

Java程序怎么操作

引入依赖

<dependency>
    <groupId>org.redisson</groupId>
    <artifactId>redisson-spring-boot-starter</artifactId>
    <version>3.15.0</version>
</dependency>
public static void main(String[] args) throws Exception {
    Config config = new Config();
    config.useSingleServer().setAddress("redis://127.0.0.1:6379");
    RedissonClient client = Redisson.create(config);

    RBloomFilter<String> bloomFilter = client.getBloomFilter("user");
    //尝试初始化,预计元素55000000,期望误判率0.03
    bloomFilter.tryInit(55000000L, 0.03);
    //添加元素到布隆过滤器中
    bloomFilter.add("kg");
    bloomFilter.add("ak");
    bloomFilter.add("tk");
    bloomFilter.add("nk");
    System.out.println("布隆过滤器元素总数为:" + bloomFilter.count());//布隆过滤器元素总数为:4
    System.out.println("是否包含kg:" + bloomFilter.contains("tom"));//是否包含kg:true
    System.out.println("是否包含app:" + bloomFilter.contains("lei"));//是否包含app:false
    client.shutdown();
}
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,504评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,434评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,089评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,378评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,472评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,506评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,519评论 3 413
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,292评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,738评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,022评论 2 329
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,194评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,873评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,536评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,162评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,413评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,075评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,080评论 2 352

推荐阅读更多精彩内容

  • 1. 哈希表 1.1. 背景 问题:-- 在开发过程中,我们经常需要判断一个元素是不是在一个集合里;-- 比如:我...
    dex0423阅读 1,865评论 0 6
  • 什么是 BloomFilter 布隆过滤器(英语:Bloom Filter)是 1970 年由布隆提出的。它实际上...
    JavaKeeper_海星阅读 743评论 0 0
  • 什么是 BloomFilter 布隆过滤器(英语:Bloom Filter)是 1970 年由布隆提出的。它实际上...
    AnyL8023阅读 455评论 0 0
  • 什么是布隆过滤器 本质上布隆过滤器是一种数据结构,比较巧妙的概率型数据结构(probabilistic data ...
    学编程的小屁孩阅读 659评论 0 0
  • 1. 问题情景 如果面试官问你,一个网站有 100 亿 url 存在一个黑名单中,每条 url 平均 64 字节。...
    不只Java阅读 447评论 0 1