redis_布隆过滤器

使用场景

例如：刷今日头条时，推送的文章是有类似的，但是绝对没有重复的文章。这就涉及到在推送的时候如何去去重？
可以将用户的浏览记录保存下来，每次推送的时候判断文章是否浏览过，这样效率低下，不推荐。

Bloom Filter介绍

解决去重，可以使用布隆过滤器。不会像缓存那样浪费空间。
但是过滤器也有缺点，不精确。（这个可以控制：精确一点，占空间；不精确点，省空间）
不太精确的set集合，可以利用contains方法判断某个对象是否存在，
但是这个判断不是特别精确。
contains方法判断某个值不存在，那就一定不存在；
判断某个值存在，可能会不存在
换句话说，给你推送的文章一定是你没有看过的，但是你没看过的文章也会有可能被误判看过了，被拦截下来

Bloom Filter安装

1.Docker安装

此方式因没有用过docker，所以暂不使用

2.编译安装

git clone https://github.com/RedisBloom/RedisBloom.git

cd RedisBloom/

make

此时redis关闭

[root@izbp17y54l8o2xl69y98cgz redis]# redis-server --loadmodule ./RedisBloom/redisbloom.so

后台启动加上redis.conf

[root@izbp17y54l8o2xl69y98cgz redis]# redis-server redis.conf --loadmodule ./RedisBloom/redisbloom.so

可以使用bf.add命令，表示安装成功
每次启动布隆过滤器，都要手动启动，很麻烦，所以配置在文件中启动

# Load modules at startup. If the server is not able to load modules
# it will abort. It is possible to use multiple loadmodule directives.
#
# loadmodule /path/to/my_module.so
# loadmodule /path/to/other_module.so
loadmodule /usr/local/redis/RedisBloom/redisbloom.so

基本用法

bf.add/bf.madd
bf.exists/bg.mexists

布隆过滤器中没有删除的功能，之所以没有是因为：像之前的例子，一个文章被标记为看过了，你把它删除了；但是其他用户还没有看过。

127.0.0.1:6379> bf.add k1 v1
(integer) 1
127.0.0.1:6379> bf.exists k1
(error) ERR wrong number of arguments for 'bf.exists' command
127.0.0.1:6379> bf.exists k1 v1
(integer) 1

使用jedis操作布隆过滤器
引入依赖，这个是基于jedis3.x版本的依赖

<!--    基于jedis的布隆过滤器-->
    <dependency>
        <groupId>com.redislabs</groupId>
        <artifactId>jrebloom</artifactId>
        <version>1.2.0</version>
    </dependency>

写一个测试例子

import io.rebloom.client.Client;
import org.apache.commons.pool2.impl.GenericObjectPoolConfig;
import redis.clients.jedis.JedisPool;

public class BloomFilter {
    public static void main(String[] args) {
        GenericObjectPoolConfig config = new GenericObjectPoolConfig();
        config.setMaxIdle(300);//最大空闲数
        config.setMaxTotal(1000);//最大连接数
        config.setMaxWaitMillis(30000);//最大等待时间
        config.setTestOnCreate(true);//空闲检查有效性
        JedisPool Pool = new JedisPool(config, "121.196.10.67", 6379,3000,"123456");
        Client client = new Client(Pool);
        for (int i = 0; i < 100000; i++) {
            client.add("name", "test" + i);
        }
        boolean exists = client.exists("name", "test99999");
        System.out.println(exists);
    }
}

基本配置

布隆过滤器的配置：默认是错误率：0.01，元素个数100
bf.reserve可以设置key的设置
bf.reserve k1 0.0001 100000
当你的元素个数超出预计个数，你的错误率会上升

错误率越小，容量越大
实际容量大于预计容量，则错误率上升

缓存穿透

在开始说缓存穿透之前，先说说缓存击穿的概念。
穿透：是指缓存中没有找到数据，到数据库中找，某些不正当手段去专门找数据库中没有的数据，从而使数据库负担增大。
击穿：是指缓存中一个key频繁使用，从而失效，到数据库中寻找。

可以使用布隆过滤器将用户放在布隆过滤器中，直接从布隆过滤器中找资源，如果不存在，直接返回不存在；
如果存在，在到redis缓存中读取，redis缓存中没有，再到数据库中查找。

布隆过滤器原理

暂时不理解