Redis哨兵(Sentinel)机制 --高可用的保障

最近复习看到这篇相当重要的哨兵机制之前是记录在别的文章里面的,感觉有点草率了,现在提了出来。
背景:哨兵是redis集群架构中非常重要的一个组件,我们想要保证redis的高可用性,必须保证我们的redis集群可以做到 故障转移或者说是主备切换

一 . 哨兵的主要作用

哨兵机制是用来解决主从同步Master宕机后的动态自动主从切换问题。
主要有以下作用

  • 监控检查:检查主从服务器是否运行正常

  • 消息通知:通过API向管理员或者其他应用程序发送故障通知

  • 自动故障迁移:主从切换
    故障转移(sentinel领导者节点完成)
    1,从slave节点中选出一个“合适的”节点作为新的master节点
    2,对该slave节点执行slaveof no one 命令让其成为master节点.
    3,向剩余的slave节点发出命令,让他们成为新master节点的slave节点,复制规则和parallel-syncs参数有关。
    4,更新对原来master节点配置为slave,并保持着对其"关注",当其恢复后命令它去复制新的master节点

  • 配置中心,如果故障转移发生了,通知client客户端新的master地址

二 哨兵机制和核心内容

2.1 Redis Sentinel本身也是一个分布式系统

试想如果用来保障redis集群高可用的哨兵是单机的,然后哨兵挂了,redis也挂了,这tm是何等卧槽?所以哨兵也是集群的,所有操作需要进行投票决定。
(1)故障转移时,判断一个master node是宕机了,需要大部分的哨兵都同意才行,涉及到了分布式选举的问题
(2)即使部分哨兵节点挂掉了,哨兵集群还是能正常工作的。

2.2 哨兵常规配置

(1)哨兵至少需要3个实例,来保证自己的健壮性
(2)哨兵 + redis主从的部署架构,是不会保证数据零丢失的,只能保证redis集群的高可用性

为什么redis哨兵集群只有2个节点无法正常工作?

哨兵集群必须部署2个以上节点

如果哨兵集群仅仅部署了个2个哨兵实例,quorum=1(宕机预判阈值:只要有一个认为master宕机就可以尝试主从切换了)

+----+         +----+
| M1 |---------| R1 |
| S1 |         | S2 |
+----+         +----+

Configuration: quorum = 1

master宕机,s1和s2中只要有1个哨兵认为master宕机就可以还行切换,同时s1和s2中会选举出一个哨兵来执行故障转移

同时这个时候,需要majority(大多数的哨兵),也就是大多数哨兵都是运行的才可以,2个哨兵的majority(n/2+1)就是2(2的majority=2,3的majority=2,4的majority=2,5的majority=3,),2个哨兵都运行着并且同意切换master,就可以允许执行故障转移

但是如果整个M1和S1运行的机器宕机了,那么哨兵只有1个了,此时就没有majority来允许执行故障转移,虽然另外一台机器还有一个R1,但是故障转移不会执行

##总结下
只有即达到我们设置的认为主节点宕机的哨兵数量阈值,同时存储的哨兵数量也是大部分都存活,才可以进行选举和主从切换。

虽然这里我们这里达到了我们认为主节点宕机了的阈值 1,但是呢由于这里只有两个哨兵,如果master在的服务器挂了,哨兵也挂了,那么majority就等于1,那么他是没有办法达到主从切换的能力的。

经典的3节点哨兵集群

       +----+
       | M1 |
       | S1 |
       +----+
          |
+----+    |    +----+
| R2 |----+----| R3 |
| S2 |         | S3 |
+----+         +----+

Configuration: quorum = 2,majority=2

如果M1所在机器宕机了,那么三个哨兵还剩下2个,S2和S3可以一致认为master宕机,然后选举出一个来执行故障转移

同时3个哨兵的majority是2,所以还剩下的2个哨兵运行着,就可以允许执行故障转移

2.3 哨兵核心要点

2.3.1 共识算法

我们在多个机器部署哨兵,它们需要共同协作完成一项任务,所以它们就组成了一个「分布式系统」。

在分布式系统领域,多个节点如何就一个问题达成共识的算法,就叫共识算法。

在这个场景下,多个哨兵共同协商,选举出一个都认可的领导者,就是使用共识算法完成的。

这个算法还规定节点的数量必须是奇数个,这样可以保证系统中即使有节点发生了故障,剩余超过「半数」的节点状态正常,依旧可以提供正确的结果,也就是说,这个算法还兼容了存在故障节点的情况。

共识算法在分布式系统领域有很多,例如 Paxos、Raft,哨兵选举领导者这个场景,使用的是Raft 共识算法,因为它足够简单,且易于实现。

2.3.2 sdown和odown转换机制

sdown和odown两种失败状态

  • sdown是主观宕机,就一个哨兵自己觉得一个master宕机了,那么就是主观宕机
  • odown是客观宕机,如果quorum数量的哨兵都觉得一个master宕机了,那么就是客观宕机

sdown达成的条件很简单,如果一个哨兵ping一个master,超过了is-master-down-after-milliseconds(哨兵配置文件里可配置)指定的毫秒数之后,就主观认为master宕机

sdown到odown转换的条件很简单,如果一个哨兵在指定时间内,收到了quorum指定数量其他哨兵也认为那个master是sdown了,那么就认为是odown了,客观认为master宕机。

2.3.3 哨兵集群的自动发现机制--哨兵间的通讯

哨兵互相之间的发现,是通过redis的pub/sub系统实现的,每个哨兵都会往__sentinel__:hello这个channel里发送一个消息,这时候所有其他哨兵都可以消费到这个消息,并感知到其他的哨兵的存在

每隔两秒钟,每个哨兵都会往自己监控的某个master+slaves对应的__sentinel__:hello channel里发送一个消息,内容是自己的host、ip和runid还有对这个master的监控配置

每个哨兵也会去监听自己监控的每个master+slaves对应的__sentinel__:hello channel,然后去感知到同样在监听这个master+slaves的其他哨兵的存在

每个哨兵还会跟其他哨兵交换对master的监控配置,互相进行监控配置的同步

2.3.4 slave配置的自动纠正

哨兵会负责自动纠正slave的一些配置,比如如果master宕机了,选举出了新的master,原来slave连接到了一个错误的master上,故障转移之后,那么哨兵会确保它们连接到正确的master上

2.3.5 slave->master选举算法

如果一个master被认为odown了,而且majority哨兵(大多数哨兵数量)都允许了主备切换,那么某个哨兵就会执行主备切换操作,此时首先要选举一个slave来

选举新的主节点会考虑slave的一些信息
(1)跟master断开连接的时长过长的被先过滤掉,然后进行选择
(2)slave优先级
(3)复制offset
(4)run id

首先:如果一个slave跟master断开连接已经超过了down-after-milliseconds的10倍,外加master宕机的时长,那么该slave就被认为不适合选举为master--(down-after-milliseconds * 10) + milliseconds_since_master_is_in_SDOWN_state

除去断开连接过长的结点,接下来会对slave进行排序
(1)按照slave优先级进行排序,slave priority越低,优先级就越高
(2)如果slave priority相同,那么看replica offset哪个slave复制了越多的数据,offset越靠后,优先级就越高
(3)如果上面两个条件都相同,那么选择一个run id比较小的那个slave

主要有一个根本原则就是推断那个slave拥有的数据是最新的;

2.3.6 quorum和majority

quorum:达到odwn的条件。
majority:主备切换的条件。

每次一个哨兵要做主备切换,首先需要quorum数量的哨兵认为odown,然后选举出一个哨兵来做切换,这个哨兵还得得到majority哨兵的授权,才能正式执行切换

如果quorum < majority,比如5个哨兵,majority就是3,quorum设置为2,那么就3个哨兵授权就可以执行切换
但是如果quorum >= majority,那么必须quorum数量的哨兵都授权,比如5个哨兵,quorum是5,那么必须5个哨兵都同意授权,才能执行切换

2.3.7 configuration epoch

哨兵会对一套redis master+slave进行监控,有相应的监控的配置,configuration epoch就是一个version号,每次切换的version号都必须是唯一的。(configuration epoch 用于从结点比较自己的配置是否是最新的,可看第8点)

执行切换的那个哨兵,会从要切换到的新master(salve->master)那里得到一个configuration epoch,拿到了之后该哨兵就去切换主从结点。

如果第一个选举出的哨兵切换失败了,那么其他哨兵,会等待failover-timeout时间,然后接替继续执行切换,此时会重新获取一个新的configuration epoch,作为新的version号

2.3.8 configuraiton传播

哨兵完成切换之后,会在自己本地更新生成最新的master配置,然后同步给其他的哨兵,就是通过之前说的pub/sub消息机制

这里之前的version号就很重要了,因为各种消息都是通过一个channel去发布和监听的,所以一个哨兵完成一次新的切换之后,新的master配置是跟着新的version号的。

其他的哨兵都是根据版本号的大小来更新自己的master配置的,(如果发现自己的version落后于拿到的version就会更新自己的master配置

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,658评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,482评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,213评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,395评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,487评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,523评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,525评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,300评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,753评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,048评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,223评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,905评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,541评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,168评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,417评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,094评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,088评论 2 352

推荐阅读更多精彩内容