redis_布隆过滤器

使用场景

例如:刷今日头条时,推送的文章是有类似的,但是绝对没有重复的文章。这就涉及到在推送的时候如何去去重
可以将用户的浏览记录保存下来,每次推送的时候判断文章是否浏览过,这样效率低下,不推荐。


Bloom Filter介绍

解决去重,可以使用布隆过滤器。不会像缓存那样浪费空间。
但是过滤器也有缺点,不精确。(这个可以控制:精确一点,占空间;不精确点,省空间)
不太精确的set集合,可以利用contains方法判断某个对象是否存在,
但是这个判断不是特别精确。

contains方法判断某个值不存在,那就一定不存在;
判断某个值存在,可能会不存在

换句话说,给你推送的文章一定是你没有看过的,但是你没看过的文章也会有可能被误判看过了,被拦截下来


Bloom Filter安装

1.Docker安装

此方式因没有用过docker,所以暂不使用

2.编译安装

git clone https://github.com/RedisBloom/RedisBloom.git
cd RedisBloom/
make

此时redis关闭

[root@izbp17y54l8o2xl69y98cgz redis]# redis-server --loadmodule ./RedisBloom/redisbloom.so 

后台启动 加上redis.conf

[root@izbp17y54l8o2xl69y98cgz redis]# redis-server redis.conf --loadmodule ./RedisBloom/redisbloom.so 

可以使用bf.add命令,表示安装成功
每次启动布隆过滤器,都要手动启动,很麻烦,所以配置在文件中启动

# Load modules at startup. If the server is not able to load modules
# it will abort. It is possible to use multiple loadmodule directives.
#
# loadmodule /path/to/my_module.so
# loadmodule /path/to/other_module.so
loadmodule /usr/local/redis/RedisBloom/redisbloom.so

基本用法

bf.add/bf.madd
bf.exists/bg.mexists

布隆过滤器中没有删除的功能,之所以没有是因为:像之前的例子,一个文章被标记为看过了,你把它删除了;但是其他用户还没有看过。

127.0.0.1:6379> bf.add k1 v1
(integer) 1
127.0.0.1:6379> bf.exists k1
(error) ERR wrong number of arguments for 'bf.exists' command
127.0.0.1:6379> bf.exists k1 v1
(integer) 1

使用jedis操作布隆过滤器
引入依赖,这个是基于jedis3.x版本的依赖

<!--    基于jedis的布隆过滤器-->
    <dependency>
        <groupId>com.redislabs</groupId>
        <artifactId>jrebloom</artifactId>
        <version>1.2.0</version>
    </dependency>

写一个测试例子

import io.rebloom.client.Client;
import org.apache.commons.pool2.impl.GenericObjectPoolConfig;
import redis.clients.jedis.JedisPool;

public class BloomFilter {
    public static void main(String[] args) {
        GenericObjectPoolConfig config = new GenericObjectPoolConfig();
        config.setMaxIdle(300);//最大空闲数
        config.setMaxTotal(1000);//最大连接数
        config.setMaxWaitMillis(30000);//最大等待时间
        config.setTestOnCreate(true);//空闲检查有效性
        JedisPool Pool = new JedisPool(config, "121.196.10.67", 6379,3000,"123456");
        Client client = new Client(Pool);
        for (int i = 0; i < 100000; i++) {
            client.add("name", "test" + i);
        }
        boolean exists = client.exists("name", "test99999");
        System.out.println(exists);
    }
}

基本配置

布隆过滤器的配置:默认是错误率:0.01,元素个数100
bf.reserve可以设置key的设置
bf.reserve k1 0.0001 100000
当你的元素个数超出预计个数,你的错误率会上升

错误率越小,容量越大
实际容量大于预计容量,则错误率上升


缓存穿透

在开始说缓存穿透之前,先说说缓存击穿的概念。
穿透:是指缓存中没有找到数据,到数据库中找,某些不正当手段去专门找数据库中没有的数据,从而使数据库负担增大。
击穿:是指缓存中一个key频繁使用,从而失效,到数据库中寻找。

可以使用布隆过滤器将用户放在布隆过滤器中,直接从布隆过滤器中找资源,如果不存在,直接返回不存在;
如果存在,在到redis缓存中读取,redis缓存中没有,再到数据库中查找。


布隆过滤器原理

暂时不理解

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。