7.6.1 Leader选举算法概述
在paxos到zookeeper这本书里对Leader选举并没有详细的介绍,只是轻描带过,上一节讲到Leader选举算法的设计思路:
很简单,找所有机器中拥有最大ZXID的事务Proposal的服务器。1.可以保证新Leader一定具有所有已经提交的事务。2.可以省去Leader服务器检查Proposal的提交和废弃。
Leader选举的一些概念
1.服务器状态:具有四种状态,分别是LOOKING、FOLLOWING、LEADING、OBSERVING。
LOOKING:寻找Leader状态。当服务器处于该状态时,它会认为当前集群中没有Leader,因此需要进入Leader选举状态。
FOLLOWING:跟随者状态。表明当前服务器角色是Follower。
LEADING:领导者状态。表明当前服务器角色是Leader。
OBSERVING:观察者状态。表明当前服务器角色是Observer
何时需要Leader选举
集群服务器初始化启动时
集群服务器运行期建Leader宕机或失联
服务器启动时期的Leader选举
若要进行Leader选举,至少需要两台机器.我们假设现在集群中有三台zk服务器.简单描述起见,我们描述当两台服务器启动时选举的场景。选举过程如下:
1.每个Server发起一个投票: 由于是第一轮投票,大家都会讲自己作为Leader服务器来进行投票,每次投票会包含锁推举的服务器的myid(设置zk服务器集群时需要配置一个myid) 和ZXID,我们使用(myid,ZXID)来表示,此时Server1的投票为(1,0),Server2的投票为(2,0),然后各自将这个投票发给集群中的其他机器.
2.接收来自各个服务器的投票: 集群的每个服务器接收到来自别人的投票时,先判断该投票是否有效:如是否是本轮投票,是否来自LOOKING状态的服务器等等
3.处理投票: 针对每一个投票,服务器都需要将别人的投票和自己的投票进行PK,规则如下:
优先检查ZXID,ZXID大的服务器优先获得选票
如果ZXID相同,那么久比较myid.myid大的服务器优先获取
对于Server1而言, 他的投票是(1,0),接收到Server2的投票为(2,0),根据上面的投票规则,1.比较ZXID,相同 2.比较myid,于是Server1将自己的选票更新为(2,0),而Server2无需变更,再次向集群中所有机器发送(2,0)的投票结果即可
4.统计选票: 每次投票后,服务器都会统计投票结果,判断是否已经有半数机器接受到相同的投票信息,因此当第二轮投票结束后,得到统一结果为(2,0),此时myid为2的Server2就是Leader
5.改变服务器状态: 一旦确定Leader,每个服务器就会变更自己的状态,如果是Follower,那么状态就是FOLLOWING,如果是Leader,就变更为LEADING。
集群运行中的Leader选举
假设原先集群中正常运行的有Server1,Server2,Server3三台服务器,当前Leader是Server2,若当某一时刻Leader挂了,此时Leader选举过程如下:
1.变更状态: Leader挂掉以后,余下的非Observer服务器都会将自己的服务器状态变更为LOOKING,然后开始进入Leader选举过程.
2.每个Server发起一个投票: 在运行期间,每个服务器的ZXID可能不同,此时假定Server1的ZXID为123,则Server1的投票数据为(1,123);Server3的ZXID为122,则Server1的投票数据为(3,122);然后大家赶紧向其他服务器发消息,找一个老大
3.接收来自各个服务器的投票。 与启动时过程相同。
4.处理投票。 与启动时过程相同,此时,Server1将会成为Leader。
5.统计投票。 与启动时过程相同。
6.改变服务器的状态。 与启动时过程相同。