Redis的主从复制模式下,一旦主节点由于故障不能提供服务,需要人工将从节点晋升为主节点,同时还要通知应用方更新主节点地址,Redis从2.8开始正式提供了Redis Sentinel(哨兵)架构来解决这个问题。
由一个或多个Sentinel实例组成Sentinel(sentɪnl)系统可以监视任意多个主服务器,以及这些主服务器属下的所有从服务器,并在被监视的主服务器进入下线时,自动将下线主服务器属下的某个从服务器升级为新的主服务器继续处理命令。
实现原理
基本实现原理:Redis Sentinel的三个定时任务(心跳)、主观下线和客观下线、Sentinel领导者选举、故障转移。
(1)三个定时任务(心跳):
1)、每隔10秒,每个Sentinel节点会向主节点和从节点发送info命令获取最新的拓扑结构。主要作用:
1、通过向主节点执行info命令,获取从节点的信息 。
2、当有新的从节点加入时都可以立刻感知出来。
3、节点不可达或者故障转移后,可以通过info命令实时更新节点拓扑信息。
2)、每隔2秒,每个Sentinel节点会向Redis数据节点的__sentinel__:hello频道上发送该Sentinel节点对于主节点的判断以及当前Sentinel节点的信息,同时每个Sentinel节点也会订阅该频道,来了解其他Sentinel节点以及它们对主节点的判断,所以这个定时任务可以完成以下两个工作:
1、发现新的Sentinel节点:通过订阅主节点的__sentinel__:hello了解其他的Sentinel节点信息,如果是新加入的Sentinel节点,将该Sentinel节点信息保存起来,并与该Sentinel节点创建连接。
2、Sentinel节点之间交换主节点的状态,作为后面客观下线以及领导者选举的依据Sentinel节点之间交换主节点的状态,作为后面客观下线以及领导者选举的依据。
3)、每隔1秒,每个Sentinel节点会向主节点、从节点、其余Sentinel节点发送一条ping命令做一次心跳检测,来确认这些节点当前是否可达。
(2)主观下线和客观下线:
1)主观下线:
每个Sentinel节点会每隔1秒对主节点、从节点、其他Sentinel节点发送ping命令做心跳检测,当这些节点超过down-after-milliseconds没有进行有效回复,Sentinel节点就会对该节点做失败判定,这个行为叫做主观下线。
2)客观下线:
当Sentinel主观下线的节点是主节点时,该Sentinel节点会通过sentinel is master-down-by-addr命令向其他Sentinel节点询问对主节点的判断,当超过<quorum>个数,Sentinel节点认为主节点确实有问题,这时该Sentinel节点会做出客观下线的决定。
(3)领导者Sentinel节点选举:
一个redis服务被判断为客观下线时,多个监视该服务的sentinel协商,只能有一个sentinel节点去完成故障转移。
选举过程:
每个做主观下线的sentinel节点向其他sentinel节点发送sentinel is-master-down-by-addr这个命令,要求将它设置为领导者。
sentinel is-master-down-by-addr这个命令有两个作用,一是确认下线判定,二是进行领导者选举。
收到命令的sentinel节点如果还没有同意过其他的sentinel发送的sentinel is-master-down-by-addr命令(还未投过票),那么就会同意,否则拒绝。
如果该sentinel节点发现自己的票数已经过半且达到了quorum的值,就会成为领导者
如果这个过程出现多个sentinel成为领导者,则会等待一段时间重新选举。
(4)故障转移:
故障转移步骤:
在从节点列表中选出一个节点作为新的主节点 。
如何选出从节点:
过滤:"不健康"(主观下线、断线)、5秒内没有回复过Sentinel节点ping响应、与主节点失联超过down-after-milliseconds*10秒。
选择slave-priority(从节点优先级)最高的从节点列表,如果存在则返回,不存在则继续。
选择复制偏移量最大的从节点(复制的最完整),如果存在则返回,不存在则继续。
选择run id最小的从节点。说明运行的时间最长。
entinel领导者节点会对第一步选出来的从节点执行slaveof no one命令让其成为主节点。
Sentinel领导者节点会向剩余的从节点发送命令,让它们成为新主节点的从节点,复制规则和parallel-syncs参数有关。
Sentinel节点集合会将原来的主节点更新为从节点,并保持着对其关注,当其恢复后命令它去复制新的主节点。