ZK的选举
先定义一些名词:
投票Vote:
包含两个主要信息,
- zxid(事务ID,某个操作会有全局唯一的事务ID),
- SID(当前机器的编号,集群内唯一)
除了这两个之外,还包括以下三个信息:
- electionEpoch:类似于raft中的term,逻辑时钟,用于判断多个投票是否在同一轮选举周期中。该值在服务端是一个自增序列,每次进入新一轮的投票后,都会对这个值进行+1操作
- peerEpoch: 被推举的leader的epoch
- state:当前服务器的状态,详见下
服务器状态:
LOOKING:寻找Leader状态,表示当前服务器认为集群中没有leader,因此需要进入Leader选举流程
FOLLOWING:跟随者状态,表示当前服务器是Follower
LEADING:领导者状态,表示当前服务器是Leader
OBSERVING: 观察者状态,表示当前服务器角色是Observer
算法中的描述
- vote_sid:接收到的投票中所推举Leader服务器的sid
- vote_zxid: 接收到的投票中所推举Leader服务器的zxid
- self_sid: 当前服务器本身的sid
- self_zxid:当前服务器本身的zxid
选举规则:
- 如果vote_zxid 大于self_zxid,那么认可当前收到的投票,并再次将该投票发送出去
- 如果vote_zxid 小于self_zxid,那么坚持自己的投票,不做任何变更
- 如果vote_zxid等于self_zxid,那么对比这两者的sid
- 如果vote_sid大于self_sid,那么认可当前的投票,并再次将该投票发送出去
- 如果vote_sid小于self_sid,那么坚持自己的投票,不做任何变更。
通常来说,哪台服务器上的数据越新,那么就越有可能成为leader,因为zxid也越大。
zk只允许sid大的服务器主动和其他较小的sid服务器建立连接,否则断开连接。服务器通过对比自己和远程服务器的sid判断是否接收连接请求,如果当前服务器发现自己的sid较大,那么会断开当前连接,然后自己主动去和远程服务器建立连接。
投票只有来自于LOOKING服务器的才有效。如果当前服务器不是LOOKING状态,说明已经有Leader了,直接忽略这个投票,同时将leader信息以投票的方式发送出去。
选举轮次
也就是epoch(也称为logicalclock),选举的前提是在同一个epoch内,如果发现外部的epoch大于本身的,会立即更新自己的logicalclock,并清空已收到的投票。
只有在同一个选举轮次的投票才是有效的投票。