使用场景
例如:刷今日头条时,推送的文章是有类似的,但是绝对没有重复的文章。这就涉及到在推送的时候如何去去重?
可以将用户的浏览记录保存下来,每次推送的时候判断文章是否浏览过,这样效率低下,不推荐。
Bloom Filter介绍
解决去重,可以使用布隆过滤器。不会像缓存那样浪费空间。
但是过滤器也有缺点,不精确。(这个可以控制:精确一点,占空间;不精确点,省空间)
不太精确的set集合,可以利用contains方法判断某个对象是否存在,
但是这个判断不是特别精确。
contains方法判断某个值不存在,那就一定不存在;
判断某个值存在,可能会不存在
换句话说,给你推送的文章一定是你没有看过的,但是你没看过的文章也会有可能被误判看过了,被拦截下来
Bloom Filter安装
1.Docker安装
此方式因没有用过docker,所以暂不使用
2.编译安装
git clone https://github.com/RedisBloom/RedisBloom.git
cd RedisBloom/
make
此时redis关闭
[root@izbp17y54l8o2xl69y98cgz redis]# redis-server --loadmodule ./RedisBloom/redisbloom.so
后台启动 加上redis.conf
[root@izbp17y54l8o2xl69y98cgz redis]# redis-server redis.conf --loadmodule ./RedisBloom/redisbloom.so
可以使用bf.add命令,表示安装成功
每次启动布隆过滤器,都要手动启动,很麻烦,所以配置在文件中启动
# Load modules at startup. If the server is not able to load modules
# it will abort. It is possible to use multiple loadmodule directives.
#
# loadmodule /path/to/my_module.so
# loadmodule /path/to/other_module.so
loadmodule /usr/local/redis/RedisBloom/redisbloom.so
基本用法
bf.add/bf.madd
bf.exists/bg.mexists
布隆过滤器中没有删除的功能,之所以没有是因为:像之前的例子,一个文章被标记为看过了,你把它删除了;但是其他用户还没有看过。
127.0.0.1:6379> bf.add k1 v1
(integer) 1
127.0.0.1:6379> bf.exists k1
(error) ERR wrong number of arguments for 'bf.exists' command
127.0.0.1:6379> bf.exists k1 v1
(integer) 1
使用jedis操作布隆过滤器
引入依赖,这个是基于jedis3.x版本的依赖
<!-- 基于jedis的布隆过滤器-->
<dependency>
<groupId>com.redislabs</groupId>
<artifactId>jrebloom</artifactId>
<version>1.2.0</version>
</dependency>
写一个测试例子
import io.rebloom.client.Client;
import org.apache.commons.pool2.impl.GenericObjectPoolConfig;
import redis.clients.jedis.JedisPool;
public class BloomFilter {
public static void main(String[] args) {
GenericObjectPoolConfig config = new GenericObjectPoolConfig();
config.setMaxIdle(300);//最大空闲数
config.setMaxTotal(1000);//最大连接数
config.setMaxWaitMillis(30000);//最大等待时间
config.setTestOnCreate(true);//空闲检查有效性
JedisPool Pool = new JedisPool(config, "121.196.10.67", 6379,3000,"123456");
Client client = new Client(Pool);
for (int i = 0; i < 100000; i++) {
client.add("name", "test" + i);
}
boolean exists = client.exists("name", "test99999");
System.out.println(exists);
}
}
基本配置
布隆过滤器的配置:默认是错误率:0.01,元素个数100
bf.reserve可以设置key的设置
bf.reserve k1 0.0001 100000
当你的元素个数超出预计个数,你的错误率会上升
错误率越小,容量越大
实际容量大于预计容量,则错误率上升
缓存穿透
在开始说缓存穿透之前,先说说缓存击穿的概念。
穿透:是指缓存中没有找到数据,到数据库中找,某些不正当手段去专门找数据库中没有的数据,从而使数据库负担增大。
击穿:是指缓存中一个key频繁使用,从而失效,到数据库中寻找。
可以使用布隆过滤器将用户放在布隆过滤器中,直接从布隆过滤器中找资源,如果不存在,直接返回不存在;
如果存在,在到redis缓存中读取,redis缓存中没有,再到数据库中查找。
布隆过滤器原理
暂时不理解