领导者选举
什么是领导者
Raft 首先选举一个服务器作为领导者,然后让这个领导者全面负责可复制日志的管理。领导者需要从客户端接受日志条目,将这些日志条目复制到别的服务器,告诉其它服务器什么时候可以安全地把日志条目输入到他们的状态机。
为什么Raft算法需要一个领导者
有一个领导者能够简化可复制日志的管理。例如,领导者能够决定在哪个地方放置新的日志条目而不需要咨询其他服务器的意见,并且数据以一种简单的形式从领导者流向其它服务器。
如何选举一个领导者
触发选举
服务器启动时,初始状态是跟随者状态。如果跟随者一直接收领导者或候选人的消息,就会保持在跟随者状态。在正常情况下,领导者会定时发送心跳消息给所有的跟随者以维护他们的统治。如果一个跟随者在一个叫做 election timeout 的时间内都没有接收到任何消息,它就认为领导者已经挂了,然后开始一场选举,以选出一个新的领导者。为了开始一场选举,
- 跟随者会增加自己的任期,并转换为候选人状态
- 它会给集群中的其他服务器发送 RequestVote 消息,问他们是否愿意为自己投票
- 候选人处于候选状态,直到
- 自己成为领导者
- 别的服务器成为了领导者
- 没有选出领导者
对于接收者来说,如果投赞同票,需要同时满足一下两个条件:
- 如果一个服务器的当前任期大于候选人的任期,那么该服务器投反对票。
- 如果一个服务器的当前任期小于候选人的任期,那么它更新自己的当前任期为更大值。如果当前服务器是领导者或候选人状态,恢复到跟随者状态。
- 如果一个服务器在当前任期没有给其他候选人投过票,或者投过票给当前候选人,并且候选人的日志至少要跟服务器自己的日志一样新,那么该服务器投赞同票。
自己成为领导者
如果一个候选人接收到了同一个任期内的大多数服务器的投票,那么它就赢得了选举。这个规则保证了:在一个特定的任期,最多只有一个候选人能够赢得选举。在一个给定的任期,每台服务器将会为最多一个候选人投票,即先到先服务原则。这个原则有利于某个候选人得到大多数选票,减少选举失败的可能性。赢得选举的候选人会成为领导者,然后发送心跳消息给其他所有服务器,以建立自己的统治并阻止新的选举。
别的服务器成为了领导者
在等待投票的时候,候选人可能接收到自认为是领导者的服务器发来的 AppendEntries 消息,这时候
- 如果领导者的任期大于等于候选人的任期,那么候选人认为这个领导者是合法的,然后回到跟随者状态.
- 如果领导者的任期小于候选人的任期,那么候选人拒绝承认并继续处于候选状态。候选人会发送一个响应,响应中返回反对意见和自己的任期。领导者收到后会将自己的任期更新为这个更大的任期,并回到跟随着状态。
没有选出领导者
候选人在选举中既没有赢也没有输:如果多个跟随者在同一时间成为候选人,选票就可能被分裂,以至于没有一个候选人能获得大多数选票。在这种情况下,每个候选人都开始一场新的选举:增加自己的任期编号,然后发送新一轮的 RequestVote 信息。但是,在没有外部干预的情况下,分裂投票的情况有可能无限重复。
如何避免分裂选票的情况
什么是分裂选票的情况?一场选举没有一个候选人能获得大多数选票,这就叫分裂选票。为什么会出现这种情况呢?其实是多个候选人在同一时间开始选举造成的。例如,一个5台服务器的集群,3台服务器同时开始选举,就有可能出现2票、2票、1票的情况。此时,没有一台服务器赢得选举。解决这个问题很简单,只要候选人开始的选举的时间错开就行了。那候选人什么时候会开始选举呢?根据前文,如果一个跟随者在 election timeout 的时间内没有接收到任何消息,就会开始一场选举。所以,只要每个跟随者的 election timeout 不一样的,就可以极大地避免分裂投票的情况出现。
Raft 算法采用随机化的 election timeout 来确保分裂选票的情况很少出现。即使出现了,也能很快被解决。为了在第一时间避免分裂选票,election timeout 从一个固定间隔随机选择(例如150—300ms)。这样做可以将服务器的超时时间分散开,使得大多数情况下,某个时刻,只有一个服务器超时。它会在其他服务器超时前赢得选举和发送心跳消息。即使出现了分裂选票的情况,每个候选者都会重新随机选择 election timeout 并等待,超时后再开始新的选举。这种方法可以减少新的选举中出现分裂选票的可能性。第九章展示了这种选举领导者的方法非常快。