2018.9.23 APP无法登陆问题
现象
中药城APP无法登陆
排查
- 第一反应,怀疑memcached组件挂了,查看正常
- 查看
tomcat-kmb2b
的日志
2018-09-23 01:10:50.336 [http-nio-8080-exec-4] ERROR com.kmzyc.b2b.shopcart.action.ShopCartAction - 查询采购单异常
redis.clients.jedis.exceptions.JedisClusterException: CLUSTERDOWN The cluster is down
at redis.clients.jedis.Protocol.processError(Protocol.java:115) ~[jedis-2.8.1.jar:?]
at redis.clients.jedis.Protocol.process(Protocol.java:151) ~[jedis-2.8.1.jar:?]
- 查看线上zookeeper配置
redis.host_1=172.20.28.11
redis.port_1=6379
redis.host_2=172.20.28.12
redis.port_2=6379
redis.host_3=172.20.28.13
redis.port_3=6379
redis.maxIdle=16
redis.minIdle=8
redis.maxTotal=16
- 查看三个服务器的redis组件情况,发现28.13的redis挂了,启动后登陆恢复正常
redis-cluster说明
根据以上排查信息发现redis没有起到集群的作用,查看172.20.28.13
的redis集群信息如下
- vim /opt/redis/6379/nodes-6379.conf,综合线上的zookeeper关于redis集群的配置说明,端口为
6379
的master
节点只有172.20.28.13
。 - 次点说明,之前运维同事启动的redis集群,分配端口及主从不合理。
172.20.28.12:6379 slave
172.20.28.11:6379 slave
172.20.28.13:7379 master
172.20.28.12:7379 slave
172.20.28.13:6379 myself,master
172.20.28.11:7379 master
- 测试环境的redis集群信息如下
- 10.1.6.148-server, vim /usr/local/redis-cluster/nodes-7000.conf
- 测试发现,kill掉148服务器的7000端口的redis(master)还能登陆,再kill 149的7003、7004就无法登陆,所以判断只要有master节点存在就能登录
10.1.6.148:7002 slave
10.1.6.149:7003 master
10.1.6.148:7001 slave
10.1.6.149:7005 slave
10.1.6.149:7004 master
10.1.6.148:7000 myself,master
- 根据测试、线上的redis配置信息,线上断掉的就是6379中的唯一一个master节点,所以会无法登陆。
redis-cluster启动
- 先启动各个节点的redis
redis-server /usr/local/redis-cluster/7003/redis.conf
redis-server /usr/local/redis-cluster/7005/redis.conf
redis-server /usr/local/redis-cluster/7004/redis.conf
redis-server /usr/local/redis-cluster/7000/redis.conf
redis-server /usr/local/redis-cluster/7001/redis.conf
redis-server /usr/local/redis-cluster/7002/redis.conf
- redis-cluster 启动,
--replicas 1
表示有一个slave节点,前三个是master节点,后三个是slave节点
./redis-trib.rb create --replicas 1 10.1.6.148:7000 10.1.6.148:7001 10.1.6.148:7002 10.1.6.149:7003 10.1.6.149:7004 10.1.6.149:7005
- 查看集群相关信息: redis-cli -p 7000 -h 10.1.6.148 cluster nodes
[root@KMVS-CENTOS redis-cluster]# redis-cli -p 7000 -h 10.1.6.148 cluster nodes
[root@KMVS-CENTOS redis-cluster]# redis-trib.rb check 10.1.6.148:7000
- 添加节点的测试,需求:把6382这个节点作为slave添加到6379这个master节点上,命令如下:(两个命令都可行)
./redis-trib.rb add-node --slave 192.168.1.25:6382 192.168.1.25:6379
./redis-trib.rb add-node --slave master-id 5dfa7d9f2dbb4ab64b71f2713538125354c88462 192.168.1.25:6382 192.168.1.25:6379
报错
- 为节点指定master报错
- ps -ef | grep redis | grep -v "grep" | awk -F " " '{print} $2' | xargs kill -9
- 删除/usr/local/redis-cluster/7000{appendonly.aof,dump.rdb, nodes-7000.conf}
longwentaodeMacBook-Pro:src longwentao$ ./redis-cli -p 9002
127.0.0.1:9002> CLUSTER REPLICATE 66631a38941a913f55a14bb079d5d3aa03366def
(error) ERR To set a master the node must be empty and without assigned slots.
127.0.0.1:9002>
- 上面的错误是不能为一个非空并且分配了slot的主节点继续添加从节点 ,将主从节点置空并且清除为其指定的slots
- longwentaodeMacBook-Pro:src longwentao$ ./redis-trib.rb reshard 127.0.0.1:9001
- 如果还有问题,将odes.conf,dump.rdb文件都删除,删除后,slots Hash槽的数据就为0了(一般不建议这么干),重新启动节点,并将节点加入到集群中,再用redis-cli连接到当前节点上,使用如下命令将节点指定为从节点
架构说明
- 有M个哈希槽,每个master会有[0,M]个哈希槽slots。当若干个master拥有的哈希槽的集合总数为M时,该redis cluster才能全部读写工作正常态。
- 一个master可以没有或有任意个slave,每个master拥有的salve数量是任意的
- 当某个master 挂掉(failover)时候,slave会自动顶替它的master,如果某个master恰巧没有slave,挂掉之后,整个redis集群就都挂掉了