Kafka_读写流程

kafka集群

image.png

写

生产者和kafka集群之间的流程

image.png

1.生产者将数据封装到ProducerRecord中,将ProducerRecord放到一个批次batch中,当该batch达到一定大小,或者一定时间,提交写入请求
2.生产者根据分区规则确定该分区的编号,根据zk保存的元数据,确定该分区leader副本所在的broker节点的地址
3.将数据写入leader副本所在机器的页缓存(pagecache)中,操作系统级别
4.操作系统后台将数据从页缓存中flush到磁盘segment片段的xxx.log文件中,顺序写入
5.该分区的其他follower副本跟leader副本同步数据

问题 kafak为何写入数据这么快
1.用户写入数据的时候,以batch批次形式写入,减少了连接时间
2.写入数据到pagecache页缓存中
3.flush到sgement中 000.log中是顺序写入
页缓存+顺序写入

kafka为何读数据这么快
1.先内存中读数据 pagecahche + 零拷贝
2.再.读取日志文件 index稀疏索引机制+顺序读

kafak为什么读数据这么快

读

消费者跟kakfa集群之间的关系

image.png

1.消费者访问zk的元数据,根据topic,partition,offset确定数据所在的broker节点地址
2.然后到该节broker中leader副本的pagecache页缓存中通zero copy 零拷贝机制读取数据
3.如果页缓存中没有,就到磁盘segment中读取,根据offset的范围确定segment,然后查询xxxx.index 稀疏索引到xxxx.log文件中定位数据.

Kafka_读写流程

kafka集群

写

读

推荐阅读更多精彩内容