kafka核心问题

一 、 kafka是什么?
kafka是一个基于发布-订阅模式的MQ,可以用来解耦、削封、异步等功能。

二、kafka的架构是怎样的?
broker:kafka服务器
message是k-v结构,根据topic分为不同的类型
consumer订阅并接收topic,producer发布topic
通过zookeeper管理broker与consumer的动态加入与离开。

一个topic分成多个partition (提高并发性),每个partition是一个有序队列,根据负载均衡将消息发布到不同的partition中。
partition都有自己的replication,这些relication在不同的机器上。这些relication需要选取leader负责读写,并由zooKeeper负责fail over。
每个partition对应一个逻辑log,有多个segment组成,每个segment中存储多条message


写入消息

读取消息

Consumer1有两个offset分别对应Partition0、Partition1;Consumer2有一个offset对应Partition2。这个offset是由客户端SDK负责保存的,Kafka的Broker完全无视这个东西的存在;一般情况下SDK会把它保存到zookeeper里面。(所以需要给Consumer提供zookeeper的地址)。

三、kafka为什么这么快?

  1. 磁盘顺序IO
  2. 消费者读取消息Zero-Copy:只需要两次拷贝
  3. 批量处理:合并小的请求,减少IO次数
  4. 顺序写入消息使用内存映射文件(Memory Mapped Files),不是直接写到硬盘里。 Kafka提供了一个参数——producer.type来控制是不是主动flush,如果Kafka写入到mmap之后就立即flush然后再返回Producer叫 同步 (sync);写入mmap之后立即返回Producer不调用flush叫 异步 (async)

总结:Kafka速度的秘诀在于,它把所有的消息都变成一个的文件。通过mmap提高I/O速度,写入数据的时候它是末尾添加所以速度最优;读取数据的时候配合sendfile直接暴力输出

上面提到的一些技术在Java中都有相应的API
Java NIO,它给我提供了一个MappedByteBuffer类可以用来实现内存映射
Java的NIO提供了FileChannel,它的transferTo、transferFrom方法就是Zero Copy。

四、kafka怎样保证高可用?
ISR(In-Sync Replicas):增加副本
ISR是对partition而言的,其中一个replica为leader,其他都为followers.
leader处理partition的所有读写请求,其他的都是备份。与此同时,follower会被动定期地去复制leader上的数据。如果一个flower比一个leader落后太多,或者超过一定时间未发起数据复制请求,则leader将其重ISR中移除。
ISR的管理要依赖zk,如果Leader失效,选举也要zk完成。

五、producer向broker发送消息,怎样保证可靠性?
通过确认参数request.required.acks设置可靠性的等级
1:只要接到Leader的确认,就算是发送成功了。如果Leader
0:只要发出去就不管了,这样的吞吐量最大,但可靠性最差。
-1:需要等待所有的followers接到消息后,才算发送成功,可靠性最高,吞吐量最小。
默认是1

六、 当consumer上线或者下线的时候,会发生什么?
需要重新确定partition和consumer的关系,这就是rebalance,会带来超时、抖动等问题。

七、怎样保证消息的有序性?

感谢:
kafka消息系统基础知识索引
kafka系列

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容