在kafka中,副本分成两种:一种是领导者副本,每个partition只有一个;还有一种是追随者副本,每个partition会存在多个。领导者副本负责响应生产者和消费者的读写请求,而追随者副本对外不提供任何服务,只负责从领导者副本拉取消息,在领导者副本挂掉后或者领导者副本所在broker宕机后,从ISR(inSyncReplicas,同步副本集合)副本集合中选取一个领导者副本(unclean.leader.election.enable
为false),或者是从AR(allReplicas,全部副本集合)副本集合中选取(unclean.leader.election.enable
为true),kafka的高可用就是基于此实现的。
很多人包括我在内在一开始学习kafka的时候可能都有这样的疑惑,那就是为什么kafka的follower副本不对外提供服务,就像MySQL和Redis的从节点一样读写分离,主节点提供写服务,从节点提供读服务。这篇文章就来分析下这个问题。
我们先看看读写分离的好处:
1.从节点能够分担主节点的压力,避免主节点负载过大
2.提高了数据库集群的性能
3.一定程度上提升了集群的可用性
4.改善了数据局部性
既然好处这么多,为什么kafka不采用读写分离的模式呢?因为读写分离有几个明显的问题:
1.主从同步有一定的延迟,对于kafka来说主从之间的数据同步需要经历网络 —> 主节点内存 —> 主节点磁盘 —> 网络 —> 从节点内存 —> 从节点磁盘这几个步骤,相对redis只经历网络和内存来说比较耗时。
2.由于主从同步有一定的延迟,会出现主从节点数据不一致的情况
3.和MySQL、Redis不同,kafka有一个offset的概念,在kafka消费完消息后,需要更新消息的offset。如果kafka采用了读写分离的模式,那么每个分区的offset比较难控制
另外,kafka的每个topic下有多个partition,这些partition分担了读写的压力,就不再需要主写从读来分担主节点的压力。
kafka追随者副本不对外提供服务还有几点好处:
1.Read-your-wirtes:这句话中文的意思是“读自己所写”,指的是当生产者向kafka成功写入消息后,消费者能立刻读到这条消息。在做社交产品时,用户修改完自己的用户资料或是发送一条feed以后,肯定需要立刻能看到。因为kafka的追随者副本不会提供读服务,用户向领导者副本发送的消息立刻就能在领导者副本上读到。但是如果允许追随者副本提供读服务,由于副本之间是异步同步的,有可能追随者副本还没有拉取到最新的消息,使得用户无法看到自己最新的资料或者feed。
2.Monotonic Reads:单调读。对于一个消费者而言,在多次消费消息的时候,不会出现某条消息一会存在一会不存在的情况。比如某个partition下面有三个副本,分别是领导者副本Leader和两个追随者副本F1、F2。在追随者副本对外提供服务的情况下,就有可能出现F1拉取到新消息,而F2没有拉取到新消息的情况。如果这时候消费者先从F1消费消息,再从F2消费消息,就会看到这样的情况:第一次消费时拿到的消息在第二次消费的时候消失了,这就违背了单调读的要求。
以上就是我理解的kafka的追随者副本不对外提供读服务的原因。