应用场景
- 日志聚合,一般kafka 使用来记录日志信息。
- 限流削峰,当大量数据同时请求到服务的时候,可以造成服务宕机,直接将消息放到kafka,然后对应服务根据规则取读取。
高吞吐率
- 顺序读写(partition中的消息是顺序读写的。)
- 零copy
- 批量发送
- 压缩消息
基本术语
broker kafka机器节点
topic 主题 逻辑上概念,来划分消息所属的类
partition 主题对应到物理存储上 。一个topic 至少一个partition 。在某个partition中的消息是有序的。多分区小没有办法保证消息的有序性 分区本身是 FIFO。一般 分区数量是borker的整数倍
-
segment 将partiton 细分为段,(三个文件一套 *,index *.log )每个段的最大存储值是相同的
通过二分查找找到对应的 文件log 然后根据 index文件中存储的偏移量 找到对应的log中的偏移量存储的消息。
log 文件的最大大小配置在配置文件中log.segment.byte
consumer 消费者: 一个消费者可消费多个topic,也可以消费同一个topic中的多个parition中的消息。一个分区中的消息运行多个无关的消费者同时消费。
cosumergroup:消费者组 组内的消费者会协调在一起,平均消费分区。对分区的消费是平均的。但是对消息的消费不是平均的。某个消费者只能消费一个pairtition中的消息。
producer 生产者: 生成的消息默认是平均分的。也可以指定写到某个partition。也可以根据消息的key 当作路由算出来写到某个分区
分区副本: 防止消息丢失做的 分区的备份。需要注意的是 备份得在不同的机器上。
partition leader :多个副本 得有一个 leader。负责当前消息的读写的partition。broker controller 负责leader 的选举
partition follower:主备 消息 follower 不是主从。主备的。从节点不对外提供服务
isr 副本的同步列表 get /brokers/topics/java/partitions/state 得到 一个 isr :【2,1】 列表 leader 的节点下标 leader “2”
offest :每条消息都有一个当前parittion下的唯一的一个64字节的偏移量。先根据index下索引文件找到对应的偏移量。根据偏移量找到对应的消息的地址值。
broker controller broker有一个被选举为controller。负责管理 partition和 replicas的状态 例如 partition leader 故障,由controller 负责从isr的 follower中选举出一个新的leader 。当某个partition数量发生变化的时候,controller来负责重新分配消费者。
-
Hw 与 Leo
hw 表示consumer可以消费到的最高的 partition偏移量。为了保证 partiton中leader和follower的数据一致性leo表示 follower 当前最后一个写入消息的位置。
leader新写入的消息。consumer不能立刻消费。等到同步完成后,更新hw 。消息才能被消费
Zookeeper
从kafka 0.9 版本之后,zk的工作变的很简单,负责维护和协调borker。broker controller的选举工作。zk中存放着 各个topic主题的分区信息,分区的leader信息等。Coordinator
是broker上的一个进程。管理consumer group中的各个成员,主要用于offset位移的管理和rebalance。Rebalance
当分区数量发生变化的时候,或者消费者组中的消费者数量发送变化的时候,将partiton重新分配到不同的消费者。
*offset commit
consumer 消费一批消息后,需要将消费完的offset提交给broker。让borker记录下哪些消息是消费过的。
系统会将提交的offset 做完消息写入到 _consumer_offsets 主题的partiton中。key为消费者的id。 根据key 计算出hash值,然后再将hash与50 取模,余数就是对应的partition编号。