需求
公司目前缓存用户定位信息采用Redis,数据结构采用Hash。随着用户人数增多,单个hashkey的value越来越大,达到200M,严重影响了Redis 的性能。储存用户的hash结构如下。
处理思路
根据field生成新的hashkey
$keyNum = (int) floor($uid/100000);
$newRedisKey = 'user_location_' . $keyNum;
$res = $redis->hset($newRedisKey, $uid, $location);
然后将单个hashkey里的数组全部循环一遍,根据uid生成的新key去存储。
处理过程中遇到的问题:
1,获取所有数据的方法KEYS 、 HGETALL 等命令应禁止在生产环境使用。看官方文档,有非常显眼的警告。
2,单条处理产生新的key存储1320000数据,由于redis是单线程的,下一次请求必须等待上一次请求执行完成后才能继续执行。这种方式非常依赖网络,非常耗时。经测试,120万数据,网络良好情况下执行需要3个小时。
针对问题一的解决方法
使用hashscan方法获取单个hashkey的所有数据,
优势:相比于keys命令,hscan命令有两个比较明显的优势:
1.scan命令的时间复杂度虽然也是O(N),但它是分次进行的,不会阻塞线程。
2.scan命令提供了limit参数,可以控制每次返回结果的最大条数。
3.SCAN命令是增量的循环,每次调用只会返回一小部分的元素。所以不会有KEYS命令的坑。
4.SCAN命令返回的是一个游标,从0开始遍历,到0结束遍历。
代码如下
$itertor = NULL;
$allUserLocation = $redis->hScan('user_location', $itertor, '*', 10000000);
参数解释
1.user_location为hashkey值
2.itertor为迭代器,起始位置游标
3.pattern 匹配某一种field
4.单次遍历返回个数
针对问题二的解决方法
采用pipeline
优势:Pipeline模式,客户端可以一次性的发送多个命令,无需等待服务端返回。这样就大大的减少了网络往返时间,提高了系统性能。
缺点:不能保证数据完整性
所以需要开启事务multi
$pipe = $redis->multi($redis::PIPELINE);
$keyNum = (int) floor($uid/100000);
$newRedisKey = 'user_location_' . $keyNum;
try {
$res = $pipe->hset($newRedisKey, $uid, $location);
} catch (Exception $e) {
echo $e->getMessage();
}
unset($arrayAllUser[$uid]);
}
$result = $pipe->exec();
multi和pipeline的区别
multi相当于一个redis的transaction的,保证整个操作的原子性,避免由于中途出错而导致最后产生的数据不一致。通过测试得知,pipeline方式执行效率要比其他方式高10倍左右的速度,启用multi写入要比没有开启慢一点。
本以为处理到这里就结束了
大坑
pipeline事实上所能容忍的操作个数,和socket-output缓冲区大小/返回结果的数据尺寸都有很大的关系;同时也意味着每个redis-server同时所能支撑的pipeline链接的个数,也是有限的,这将受限于server的物理内存或网络接口的缓冲能力。
处理到117万条数据时 会报错数据无法落地,rdb无法使用;
处理方法
1:命令
dev:0> config set stop-writes-on-bgsave-error no
2:vi打开redis-server配置的redis.conf文件,然后使用快捷匹配模式:/ stop-writes-on-bgsave-error定位到stop-writes-on-bgsave-error字符串所在位置,接着把后面的yes设置为no即可。然后重启。
3:数据再分批次处理。
我选用第三种方法,每次只处理50万条。
5分钟执行完毕。
完成任务。
参考文档:Redis中scan命令的深入讲解 https://www.jb51.net/article/148698.htm
redis中multi和pipeline区别以及效率(推荐使用pipeline)