最近复习看到这篇相当重要的哨兵机制之前是记录在别的文章里面的,感觉有点草率了,现在提了出来。
背景:哨兵是redis集群架构中非常重要的一个组件,我们想要保证redis的高可用性,必须保证我们的redis集群可以做到故障转移
或者说是主备切换
。
一 . 哨兵的主要作用
哨兵机制是用来解决主从同步Master宕机后的动态自动主从切换
问题。
主要有以下作用
监控检查:检查主从服务器是否运行正常
消息通知:通过API向管理员或者其他应用程序发送故障通知
自动故障迁移:主从切换
故障转移(sentinel领导者节点完成)
1,从slave节点中选出一个“合适的”节点作为新的master节点
2,对该slave节点执行slaveof no one
命令让其成为master节点.
3,向剩余的slave节点发出命令,让他们成为新master节点的slave节点,复制规则和parallel-syncs参数有关。
4,更新对原来master节点配置为slave,并保持着对其"关注",当其恢复后命令它去复制新的master节点配置中心,如果故障转移发生了,通知client客户端新的master地址
二 哨兵机制和核心内容
2.1 Redis Sentinel本身也是一个分布式系统
试想如果用来保障redis集群高可用的哨兵是单机的,然后哨兵挂了,redis也挂了,这tm是何等卧槽?
所以哨兵也是集群的,所有操作需要进行投票决定。
(1)故障转移时,判断一个master node是宕机了,需要大部分的哨兵都同意才行,涉及到了分布式选举的问题
(2)即使部分哨兵节点挂掉了,哨兵集群还是能正常工作的。
2.2 哨兵常规配置
(1)哨兵至少需要3个实例
,来保证自己的健壮性
(2)哨兵 + redis主从的部署架构,是不会保证数据零丢失
的,只能保证redis集群的高可用性
为什么redis哨兵集群只有2个节点无法正常工作?
哨兵集群必须部署2个以上节点
如果哨兵集群仅仅部署了个2个哨兵实例,quorum=1(宕机预判阈值:只要有一个认为master宕机就可以尝试主从切换了)
+----+ +----+
| M1 |---------| R1 |
| S1 | | S2 |
+----+ +----+
Configuration: quorum = 1
master宕机,s1和s2中只要有1个哨兵认为master宕机就可以还行切换,同时s1和s2中会选举出一个哨兵来执行故障转移
同时这个时候,需要majority(大多数的哨兵),也就是大多数哨兵都是运行的才可以,2个哨兵的majority(n/2+1)就是2(2的majority=2,3的majority=2,4的majority=2,5的majority=3,),2个哨兵都运行着并且同意切换master,就可以允许执行故障转移
但是如果整个M1和S1运行的机器宕机了,那么哨兵只有1个了,此时就没有majority来允许执行故障转移,虽然另外一台机器还有一个R1,但是故障转移不会执行
##总结下
只有即达到我们设置的认为主节点宕机的哨兵数量阈值,同时存储的哨兵数量也是大部分都存活,才可以进行选举和主从切换。
虽然这里我们这里达到了我们认为主节点宕机了的阈值 1,但是呢由于这里只有两个哨兵,如果master在的服务器挂了,哨兵也挂了,那么majority就等于1,那么他是没有办法达到主从切换的能力的。
经典的3节点哨兵集群
+----+
| M1 |
| S1 |
+----+
|
+----+ | +----+
| R2 |----+----| R3 |
| S2 | | S3 |
+----+ +----+
Configuration: quorum = 2,majority=2
如果M1所在机器宕机了,那么三个哨兵还剩下2个,S2和S3可以一致认为master宕机,然后选举出一个来执行故障转移
同时3个哨兵的majority是2,所以还剩下的2个哨兵运行着,就可以允许执行故障转移
2.3 哨兵核心要点
2.3.1 共识算法
我们在多个机器部署哨兵,它们需要共同协作完成一项任务,所以它们就组成了一个「分布式系统」。
在分布式系统领域,多个节点如何就一个问题达成共识的算法,就叫共识算法。
在这个场景下,多个哨兵共同协商,选举出一个都认可的领导者,就是使用共识算法完成的。
这个算法还规定节点的数量必须是奇数个,这样可以保证系统中即使有节点发生了故障,剩余超过「半数」的节点状态正常,依旧可以提供正确的结果,也就是说,这个算法还兼容了存在故障节点的情况。
共识算法在分布式系统领域有很多,例如 Paxos、Raft,哨兵选举领导者这个场景,使用的是Raft 共识算法,因为它足够简单,且易于实现。
2.3.2 sdown和odown转换机制
sdown和odown两种失败状态
-
sdown是主观宕机,就
一个哨兵
自己觉得一个master宕机了,那么就是主观宕机 -
odown是客观宕机,如果
quorum数量
的哨兵都觉得一个master宕机了,那么就是客观宕机
sdown达成的条件很简单,如果一个哨兵ping
一个master,超过了is-master-down-after-milliseconds
(哨兵配置文件里可配置)指定的毫秒数之后,就主观认为master宕机
sdown到odown转换的条件很简单,如果一个哨兵在指定时间
内,收到了quorum指定数量
的其他哨兵也认为那个master是sdown了
,那么就认为是odown了,客观认为master宕机。
2.3.3 哨兵集群的自动发现机制
--哨兵间的通讯
哨兵互相之间的发现,是通过redis的pub/sub系统
实现的,每个哨兵都会往__sentinel__:hello
这个channel里发送一个消息,这时候所有其他哨兵都可以消费到这个消息,并感知到其他的哨兵的存在
每隔两秒钟
,每个哨兵
都会往自己监控的某个master+slaves
对应的__sentinel__:hello
channel里发送
一个消息,内容是自己的host、ip和runid
还有对这个master的监控配置
每个哨兵也会去监听
自己监控的每个master+slaves对应的__sentinel__:hello
channel,然后去感知
到同样在监听这个master+slaves的其他哨兵
的存在
每个哨兵还会跟其他哨兵交换
对master的监控配置
,互相进行监控配置的同步
2.3.4 slave
配置的自动纠正
哨兵会负责自动纠正slave的一些配置,比如如果master宕机了,选举出了新的master,原来slave连接到了一个错误的master上,故障转移之后,那么哨兵会确保它们连接到正确的master上
2.3.5 slave->master选举算法
如果一个master被认为odown了,而且majority哨兵(大多数哨兵数量)都允许了主备切换,那么某个哨兵就会执行主备切换操作,此时首先要选举一个slave来
选举新的主节点会考虑slave的一些信息
(1)跟master断开连接的时长过长的被先过滤掉,然后进行选择
(2)slave优先级
(3)复制offset
(4)run id
首先:如果一个slave跟master断开连接已经超过了down-after-milliseconds的10倍,外加master宕机的时长,那么该slave就被认为不适合选举为master--(down-after-milliseconds * 10) + milliseconds_since_master_is_in_SDOWN_state
除去断开连接过长的结点,接下来会对slave进行排序
(1)按照slave优先级进行排序,slave priority越低,优先级就越高
(2)如果slave priority相同,那么看replica offset
,哪个slave复制了越多的数据,offset越靠后,优先级就越高
(3)如果上面两个条件都相同,那么选择一个run id比较小
的那个slave
主要有一个根本原则就是推断那个slave拥有的数据是最新的;
2.3.6 quorum和majority
quorum:达到odwn的条件。
majority:主备切换的条件。
每次一个哨兵要做主备切换,首先需要quorum数量的哨兵认为odown,然后选举出一个哨兵来做切换,这个哨兵还得得到majority哨兵的授权,才能正式执行切换
如果quorum < majority,比如5个哨兵,majority就是3,quorum设置为2,那么就3个哨兵授权就可以执行切换
但是如果quorum >= majority,那么必须quorum数量的哨兵都授权,比如5个哨兵,quorum是5,那么必须5个哨兵都同意授权,才能执行切换
2.3.7 configuration epoch
哨兵会对一套redis master+slave进行监控,有相应的监控的配置,configuration epoch
就是一个version号
,每次切换的version号都必须是唯一
的。(configuration epoch 用于从结点比较自己的配置是否是最新的,可看第8点)
执行切换的那个哨兵,会从要切换到的新master(salve->master)那里得到一个configuration epoch,拿到了之后该哨兵就去切换主从结点。
如果第一个选举出的哨兵切换失败了,那么其他哨兵,会等待failover-timeout
时间,然后接替
继续执行切换,此时会重新获取一个新的configuration epoch,作为新的version号
2.3.8 configuraiton传播
哨兵完成切换之后,会在自己本地更新生成最新的master配置,然后同步给其他的哨兵,就是通过之前说的pub/sub消息机制
这里之前的version号就很重要了,因为各种消息都是通过一个channel去发布和监听的,所以一个哨兵完成一次新的切换之后,新的master配置是跟着新的version号的。
其他的哨兵都是根据版本号的大小来更新自己的master配置的,(如果发现自己的version落后于拿到的version就会更新自己的master配置
)