zookeeper集群节点数量为什么要是奇数?
1. 防止集群不可用
- ZK集群可用需要遵循 过半机制:存活的节点数>总节点数/2。
- 条件成立,可以选举出一个Leader,那么集群可用
有过半机制验证作为前提,集群中只可能有一个Leader或者没有Leader,不存在发生脑裂的现象,即多个Leader的情况,所以集群数量是奇数和脑裂其实没有多大的关系(注意区分:被分成多个集群和出现多个Leader,多个Leader才是脑裂,被分成多个集群不算脑裂)
举例(偶数台服务器):
假设集群有4台服务器因为网络原因服务器之间可能会无法正常通信,此时有两种情况(只针对分成2个小集群的情况):
(1,3)情况:即有3台可以互相通信,有1台无法和其余3台通信。
此时只有1台服务器的小集群:1>4/2条件不成立,集群不可用。
此时只有3台服务器的小集群:3>4/2条件成立,集群可用。
结果:对外就表现为集群可用
(2,2)情况:即有2个小集群,分别都是只有2台可以互相通信。
此时只有2台服务器的小集群:2>4/2条件不成立,集群不可用。
此时只有2台服务器的小集群:2>4/2条件不成立,集群不可用。
结果:对外表现为集群不可用
同理举例(奇数台服务器):
假设集群有5台服务器因为网络原因服务器之间可能会无法正常通信,此时有两种情况(只针对分成2个小集群的情况):
(1,4)情况:即有4台可以互相通信,有1台无法和其余4台通信。
此时只有1台服务器的小集群:1>5/2条件不成立,集群不可用。
此时只有4台服务器的小集群:3>5/2条件成立,集群可用。
结果:对外就表现为集群可用
(2,3)情况:即有2台可以互相通信,有3台无法和其余2台通信。
此时只有2台服务器的小集群:2>5/2条件不成立,集群不可用。
此时只有3台服务器的小集群:3>5/2条件成立,集群可用。
结果:对外表现为集群可用
结论:在容灾能力范围内发生的服务器异常,奇数台的服务器总能选举出一个Leader,集群可用。偶数台服务器有可能选不出Leader导致集群不可用
以上结论只针对被分成2个小集群!!!!!
以上结论只针对被分成2个小集群!!!!!
如果被分成了多个小集群,集群可用不可用就和奇数偶数没有关系了
2. 容灾能力的角度
根据过半机制验证:
1)假设集群有3台服务器,1台Leader,2台Follower。
Leader挂掉,那么剩下2台服务器,即 2>(3/2=1)条件成立,那么可以选举出1个Leader
2)假设集群有4台服务器,1台Leader,3台Follower。
Leader挂掉,那么剩下3台服务器,即 3>(4/2=2)条件成立,那么可以选举出1个Leader
3)假设集群有4台服务器,1台Leader,3台Follower。
Leader和1台Follower挂掉,那么剩下2台服务器,即 2>(4/2=2)条件不成立,那么不可以选举出1个Leader
那么5台和6台同理,依次类推.......
结论:2n-1台和2n台服务器容灾能力一样,大可不必多花一台服务器部署
参考文章:
脑裂概念?ZK的解决方法?https://www.cnblogs.com/nicer...