A Gossip-Style Failure Detection Service
三种不同的gossip协议
- basic protocol:每一个周期,随机选取一定数量的已知节点交换信息。redis的集群的实现基本上就是这个。
- Multi-level Gossiping:每一个节点配置子网信息,这样在选取节点发送gossip消息的时候,不同的子网平均每次选择一个节点,相同的子网可以选取多个节点。这样可以大大地减少网络上的流量。
- Catastrophe Recovery:第三种协议是在第二中协议的基础上加上了对整个子网进行广播的逻辑。这样在网络节点发生大规模故障的时候可以及时地发现。
几个结论(基于basic protocol)
failure节点与detection time之间的关系
从图中可见,当failure节点的数量不是很多得时候,很快就可以发现failure节点
mistaken probability与detection time之间的关系
从图中可见,假如mistaken probability在集群越大的时候,对detection time的影响就约大。但是,这两个参数,是一个你死我活
的关系,因此,一般来说需要对这两个值取一个平衡值。
mistaken probability:The probability that an process is not infected by any other process.
failed members与detection time之间的关系
从图中,可见,当集群发生大规模故障的时候,detection time就会剧增,导致failure detection service基本上无效。
丢包率与detection time之间的关系
从图中可见,detection time基本上不受丢包率的影响。并且实际上,丢包率是非常非常之低的,小于0.05.