ZooKeeper选Leader算法

概念

  • logicalclock: ZooKeeper服务器Leader选举的轮次

  • electionEpoch: 当前服务器的选举轮次,每次进入新一轮投票后进行加1操作

  • peerEpoch: 被推荐的Leader的选举轮次

  • 外部投票: 特指其他服务器发来的投票

  • 内部投票: 服务器自身当前的投票

  • Zookeeper规定了所有有效的投票都必须在同一轮次

ZXID设计

一个ZXID是64位,高32是纪元(epoch)编号,每经过一次leader选举产生一个新的leader,新leader会将epoch号+1。低32位是消息计数器,每接收到一条消息这个值+1,新leader选举后这个值重置为0,可以简单理解epoch为皇帝的年后,低位32位为朝中的大臣,真所谓一朝天子、一朝臣。

选举流程

ZooKeeper选主的接口是Election,默认的具体实现类是FastLeaderElection,接下来主要走读下lookForLeader()方法。代码参考zookeeper-3.4.5

  1. 当前服务器选举轮次加1操作

  2. 更新提案,默认将票投给你自己

  3. 将提案通知给其他服务器,通知的时候会将logicalclock赋值给electionEpoch,即完成加1操作

没有外部投票的处理流程
有外部投票的处理流程
  1. 外部投票的轮次大于内部投票
    更新服务器的投票轮次,然后内部投票和外部投票PK,具体PK或得提案,具体PK算法见下图。

  2. 中外部投票轮次小于内部投票
    直接忽略

  3. 中外部投票轮次等于内部投票
    内部投票和外部投票PK,具体PK算法见下图

PK算法
  1. 外部投票中被推荐Leader服务器的选举轮次大于内部投票,提案变更。

  2. 轮次相同,外部投票被推荐Leader服务器的ZXID大于内部投票,提案变更。

  3. ZXID相同,外部投票被推荐Leader服务器的SID大于内部投票,提案变更。(SID是serverId)

过半投票认可当前内部投票
  1. 过半投票认可当前内部投票

  2. 有没有被推荐的Leader

  3. 更新服务器状态(leading,observing,following)

总流程

参考:从Paxos到Zookeeper分布式一致性原理与实践

区分外部投票轮次,外部投票中被推荐Leader投票轮次,内部同理


        /*
         * Epoch 投票轮次
         */
        long electionEpoch;

        /*
         * epoch of the proposed leader 被推荐Leader投票轮次
         */
        long peerEpoch;

简单总结选主流程(模拟选举一个NB的人)

  1. 在没有遇到比我牛的人之前,第一票推荐我自己。

  2. 我有一个票箱,保存了当前这一轮选举中自己的推荐人以及接收到的推荐人信息,一人一票,重复或过期的票概不接受,当我发现了比我推荐的牛人还牛的时候,改为推荐这个牛人,否则,我还是推荐我自己。如果我发现我的选举轮数落后了,清空票箱,改为推荐接收到的最新选举中大家推荐的最牛的那个人(如果没有人比我牛,那还是推荐我自己)。

  3. 不断的重复上面的过程,不断的告诉别人“我的投票是第几轮”、“我推举的人是谁”。直到我的票箱中“我推举的最牛的人”收到了不少于N/2+1的推举投票,此时这个人就是我认定的最终leader。

  4. 当我确定了谁是最终 leader 并且这个 leader 一切正常,我就更新我的状态为 FOLLOWING/LEADING(我自己是最终 leader 则是 LEADING 否则就是 FOLLOWING),之后的选举中都直接反馈我确定的这个最终 leader。

问题

提交已被Leader Commit的事务

发生场景

Leader发送Propose请求,Follower F1和Follower F2都向Leader回复了ACK,Leader向所有的Follower发送Commit请求并Commit自身,此时Leader宕机,Leader已经Commit,但Follower尚未Commit,数据不一致。

处理方式

选举F.zxid最大的Follower成为新的准Leader,由于旧Leader宕机前,半数或以上的Follower曾经发送ACK消息,新的准Leader必然是这半数或以上Follower的一员;新的准Leader会发现自身存在已经Propose但尚未Commit的事务Proposal,新的准Leader会向所有的Follower先发送Propose请求,再发送Commit请求。

丢弃只被Leader Propose的事务

发生场景

Leader收到了事务请求,将其包装成了事务Proposal,此时Leader宕机,Follower并没有收到Propose请求,Follower进入选举阶段,选举产生新Leader,旧的Leader重启,以Follower的角色加入集群,此时旧Leader上有一个多余的事务Proposal,数据不一致。

处理方式

新的准Leader会根据自己服务器上最后被提交的事务Proposal和Follower的事务Proposal进行对比,然后新的准Leader要求Follower执行一个回退操作,回退到一个已经被集群半数以上机器提交的最新的事务Proposal。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,752评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,100评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,244评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,099评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,210评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,307评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,346评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,133评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,546评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,849评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,019评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,702评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,331评论 3 319
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,030评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,260评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,871评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,898评论 2 351

推荐阅读更多精彩内容