哨兵的核心功能是主节点的自动故障转移
下图是一个典型的哨兵集群监控的逻辑图
Redis Sentinel包含了若干个Sentinel 节点,这样做也带来了两个好处:
1、 对于节点的故障判断是由多个sentinel节点共同完成,这样可以有效地防止误判
2、即使个别sentinel节点不可用,整个sentinel集群依然是可用的
哨兵实现了以下功能:
1、监控:每个sentinel节点会对数据节点(Redis master/slave节点)和其余sentinel节点进行监控
2、通知:sentinel节点会将故障转移的结果通知给应用方
3、故障转移:实现slave晋升为master,并维护后续正确的主从关系
4、配置中心:在Redis sentinel模式中,客户端在初始化的时候连接的是sentinel节点集合,从中获取主节点信息
其中,监控和自动故障转移功能,使得哨兵可以及时发现主节点故障并完成转移;而配置中心和通知功能,则需要在与客户端的交互中才能体现
1、原理
监控
sentinel节点需要监控master、slave以及其他sentinel节点的状态。这一过程是通过Redis的pub\sub系统实现的。Redis sentinel一共有三个定时监控任务,完成对各个节点发现和监控:
- 监控主从拓扑信息:每隔10s,每个sentinel节点会向master和slave发送INFO命令获取最新的拓扑结构
- sentinel节点信息交换:每隔2s,每个sentinel节点会向Redis数据节点的sentinel:hello频道上,发送自身的信息,以及对主节点的判断信息。这样,sentinel节点之间就可以交换信息
- 节点状态监控:每隔1s,每个sentinel节点,会向master、slave、其余的sentinel节点发送ping命令做心跳检测,来确认这些节点当前是否可达
主观/客观下线
主观下线
每个sentinel节点,每隔1s会对数据节点发送ping命令做心跳检测,当这些节点超过down-after-milliseconds没有进行有效回复时,sentinel节点会对该节点做失败判定,这叫主观下线
客观下线
客观下线,是指当大多数sentinel节点都认为master节点宕机了,那这个判定就是客观的,叫客观下线。
那大多数是指什么呢? 其实就是分布式协调中的quorum判定啦,大多数就是指半数。 如哨兵数量是5,那大多数就是5/2+1=3个,哨兵数量是10大多数就是10/2+1=6个。
注:sentinel节点的数量至少为3个,否则不满足quorum判定条件
哨兵选举
如果发生了客观下线,那哨兵节点会选举出一个leader来进行实际的故障转移工作。Redis使用了Raft算法来实现哨兵领导者选举,大致思路如下:
- 每个sentinel节点都有资格成为领导者,当它主观认为某个数据节点宕机后,会向其他sentinel节点发送sentinel-is-master-down-by-addr命令,要求自己成为领导者。
- 收到命令的sentinel节点,如果没有同意过其他sentinel节点的sentinel-is-master-down-by-addr命令,将同意该请求,否则拒绝(每个sentinel节点只有1票)
- 如果该sentinel节点发现自己的票数已经大于等于MAX(quorum,num(sentinel)/2+1),那么它将成为领导者
- 如果此过程没有选举出领导者,将进入下一次选举
故障转移
选举出的leader sentinel节点将负责故障转移,也就是进行master/slave节点的主从切换。故障转移,首先要从slave节点中筛选出一个作为新的master,主要考虑以下slave信息
- 跟master断开连接的时长:如果一个slave跟master的断开连接时长已经超过了down-after-milliseconds的10倍,外加master宕机的时长,那么该salve就被认为不适合选举为master
- slave的优先级设置:salve priority参数值越小,优先级就越高
- 复制offset:当优先级相同时,哪个slave复制了越多的数据(offset越靠后),优先级越高
- run id:如果offset和优先级都相同,则哪个slave的run id越小,优先级越高
接着,筛选完slave后,会对它执行slave of no one命令,让其成为主节点
最后,sentinel领导者节点会向剩余的slave节点发送命令,让它们成为新的master节点的从节点,复制规则与parallel-syncs参数有关
sentinel 节点集合会将原来的master节点更新为slave节点,并保持对其关注,当其回复后命令它去复制新的主节点。
注:Leader sentinel 节点,会从新的master节点那里得到一个configuration epoch,本质是个version版本号,每次主从切换的version号都必须是唯一的。其他的哨兵都是根据version来更新自己的master配置