水位是一个单调增加且表征最早未完成工作(oldest work not yet completed)的时间戳。
蓝色部分代表已完成的工作,红色部分代表正在进行的工作,分界线就是水位。
在kafka中,水位并不是时间戳,而是offset位移,水位有高水位HW和低水位LW
kafka中HW(High Watermark)有两个作用
一是用来表示哪些消息可以被消费者消费,相当于分界线
二是帮助kafka完成副本的同步
位移值小于高水位的是已提交消息,可被消费者消费,大于等于高水位的消息,属于
未提交消息,不可被消费者消费
Log End Offset 日志末端位移,LEO是表示副本写入下一条消息的位移,介于高水位
和LEO之间的消息就是未提交消息,所以同一个副本中,高水位是不会超过LEO的
Kafka 使用 Leader 副本的高水位来定义所在分区的高水位。换句话说,分区的高水位就是其
Leader 副本的高水位
HW更新机制
Broker 0 上保存了某分区的 Leader 副本和所有 Follower 副本的 LEO 值, Broker 1 上仅仅保
存了该分区的某个 Follower 副本。Kafka 把 Broker 0 上保存的这些 Follower 副本又称为
远程副本(Remote Replica)。Kafka 副本机制在运行过程中,会更新 Broker 1 上 Follower
副本的高水位和 LEO 值,同时也会更新 Broker 0 上 Leader 副本的高水位和 LEO 以及
所有远程副本的 LEO,但它不会更新远程副本的高水位值
当生产者发送一条消息时,对应分区的leader副本将消息落盘后,LEO更新为1,这时follower
来同步消息,于是把自己的LEO也更新成了1,下一轮同步中,follower来拉去位移是1的消息,
leader接收消息后,把远程副本的LEO更新为1,然后更新HW为1,在更新LEO或者更新
远程副本的LEO之后,leader会取这两个的最小值更新为HW,然后把自己的HW值发给
follower,follower接到消息后把自己的HW更新为1.通过这种机制实现了Leader和Follower
副本之间的同步
Leader epoch
由于follower的HW的更新,需要一轮额外的消息拉取,如果folloer很多的话,就需要多轮拉取,
Leader 副本高水位更新和 Follower 副本高水位更新在时间上是存在错配的,会导致数据的
不一致,所以Leader epoch登场。
Epoch,一个单调增加的版本号。每当leader发生变更时,都会增加该版本号。小版本号的
Leader 被认为是过期 Leader,不能再行使 Leader 权力。
起始位移,Leader 副本在该 Epoch 值上写入的首条消息的位移
类似于zookeper的leader机制,通过leader epoch的单调递增,以此避免副本宕机重启
导致的消息同步错乱
由于leader和follwer的hw的同步是存在时间差的,由于broker的宕机重启后,日志的同步
是以高水位为准的,会导致消息的丢失,通过epoch机制的引入,副本是否执行日志截断
不再依赖于高水位进行判断