kafka集群
写
生产者和kafka集群之间的流程
1.生产者将数据封装到ProducerRecord中,将ProducerRecord放到一个批次batch中,当该batch达到一定大小,或者一定时间,提交写入请求
2.生产者根据分区规则确定该分区的编号,根据zk保存的元数据,确定该分区leader副本 所在的broker节点的地址
3.将数据写入leader副本所在机器的页缓存(pagecache)中,操作系统级别
4.操作系统后台将数据从页缓存中flush到磁盘segment片段的xxx.log文件中,顺序写入
5.该分区的其他follower副本跟leader副本同步数据
问题 kafak为何写入数据这么快
1.用户写入数据的时候,以batch批次形式写入,减少了连接时间
2.写入数据到pagecache页缓存中
3.flush到sgement中 000.log中是顺序写入
页缓存+顺序写入
kafka为何读数据这么快
1.先内存中读数据 pagecahche + 零拷贝
2.再.读取日志文件 index稀疏索引机制+顺序读
kafak为什么读数据这么快
读
消费者跟kakfa集群之间的关系
1.消费者访问zk的元数据,根据topic,partition,offset确定数据所在的broker节点地址
2.然后到该节broker中leader副本的pagecache页缓存中通zero copy 零拷贝机制读取数据
3.如果页缓存中没有,就到磁盘segment中读取,根据offset的范围确定segment,然后查询xxxx.index 稀疏索引 到xxxx.log文件中定位数据.