kafka 高水位和Leader Epoch

水位是一个单调增加且表征最早未完成工作(oldest work not yet completed)的时间戳。

蓝色部分代表已完成的工作,红色部分代表正在进行的工作,分界线就是水位。

在kafka中,水位并不是时间戳,而是offset位移,水位有高水位HW和低水位LW

kafka中HW(High Watermark)有两个作用

一是用来表示哪些消息可以被消费者消费,相当于分界线

二是帮助kafka完成副本的同步

位移值小于高水位的是已提交消息,可被消费者消费,大于等于高水位的消息,属于

未提交消息,不可被消费者消费

Log End Offset 日志末端位移,LEO是表示副本写入下一条消息的位移,介于高水位

和LEO之间的消息就是未提交消息,所以同一个副本中,高水位是不会超过LEO的

Kafka 使用 Leader 副本的高水位来定义所在分区的高水位。换句话说,分区的高水位就是其 

Leader 副本的高水位

HW更新机制

Broker 0 上保存了某分区的 Leader 副本和所有 Follower 副本的 LEO 值, Broker 1 上仅仅保

存了该分区的某个 Follower 副本。Kafka 把 Broker 0 上保存的这些 Follower 副本又称为

远程副本(Remote Replica)。Kafka 副本机制在运行过程中,会更新 Broker 1 上 Follower 

副本的高水位和 LEO 值,同时也会更新 Broker 0 上 Leader 副本的高水位和 LEO 以及

所有远程副本的 LEO,但它不会更新远程副本的高水位值

当生产者发送一条消息时,对应分区的leader副本将消息落盘后,LEO更新为1,这时follower

来同步消息,于是把自己的LEO也更新成了1,下一轮同步中,follower来拉去位移是1的消息,

leader接收消息后,把远程副本的LEO更新为1,然后更新HW为1,在更新LEO或者更新

远程副本的LEO之后,leader会取这两个的最小值更新为HW,然后把自己的HW值发给

follower,follower接到消息后把自己的HW更新为1.通过这种机制实现了Leader和Follower

副本之间的同步

Leader epoch

由于follower的HW的更新,需要一轮额外的消息拉取,如果folloer很多的话,就需要多轮拉取,

Leader 副本高水位更新和 Follower 副本高水位更新在时间上是存在错配的,会导致数据的

不一致,所以Leader epoch登场。

Epoch,一个单调增加的版本号。每当leader发生变更时,都会增加该版本号。小版本号的 

Leader 被认为是过期 Leader,不能再行使 Leader 权力。

起始位移,Leader 副本在该 Epoch 值上写入的首条消息的位移

类似于zookeper的leader机制,通过leader epoch的单调递增,以此避免副本宕机重启

导致的消息同步错乱

由于leader和follwer的hw的同步是存在时间差的,由于broker的宕机重启后,日志的同步

是以高水位为准的,会导致消息的丢失,通过epoch机制的引入,副本是否执行日志截断

不再依赖于高水位进行判断

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容