一 、 kafka是什么?
kafka是一个基于发布-订阅模式的MQ,可以用来解耦、削封、异步等功能。
二、kafka的架构是怎样的?
broker:kafka服务器
message是k-v结构,根据topic分为不同的类型
consumer订阅并接收topic,producer发布topic
通过zookeeper管理broker与consumer的动态加入与离开。
一个topic分成多个partition (提高并发性),每个partition是一个有序队列,根据负载均衡将消息发布到不同的partition中。
partition都有自己的replication,这些relication在不同的机器上。这些relication需要选取leader负责读写,并由zooKeeper负责fail over。
每个partition对应一个逻辑log,有多个segment组成,每个segment中存储多条message
Consumer1有两个offset分别对应Partition0、Partition1;Consumer2有一个offset对应Partition2。这个offset是由客户端SDK负责保存的,Kafka的Broker完全无视这个东西的存在;一般情况下SDK会把它保存到zookeeper里面。(所以需要给Consumer提供zookeeper的地址)。
三、kafka为什么这么快?
- 磁盘顺序IO
- 消费者读取消息Zero-Copy:只需要两次拷贝
- 批量处理:合并小的请求,减少IO次数
- 顺序写入消息使用内存映射文件(Memory Mapped Files),不是直接写到硬盘里。 Kafka提供了一个参数——producer.type来控制是不是主动flush,如果Kafka写入到mmap之后就立即flush然后再返回Producer叫 同步 (sync);写入mmap之后立即返回Producer不调用flush叫 异步 (async)
总结:Kafka速度的秘诀在于,它把所有的消息都变成一个的文件。通过mmap提高I/O速度,写入数据的时候它是末尾添加所以速度最优;读取数据的时候配合sendfile直接暴力输出
上面提到的一些技术在Java中都有相应的API
Java NIO,它给我提供了一个MappedByteBuffer类可以用来实现内存映射
Java的NIO提供了FileChannel,它的transferTo、transferFrom方法就是Zero Copy。
四、kafka怎样保证高可用?
ISR(In-Sync Replicas):增加副本
ISR是对partition而言的,其中一个replica为leader,其他都为followers.
leader处理partition的所有读写请求,其他的都是备份。与此同时,follower会被动定期地去复制leader上的数据。如果一个flower比一个leader落后太多,或者超过一定时间未发起数据复制请求,则leader将其重ISR中移除。
ISR的管理要依赖zk,如果Leader失效,选举也要zk完成。
五、producer向broker发送消息,怎样保证可靠性?
通过确认参数request.required.acks设置可靠性的等级
1:只要接到Leader的确认,就算是发送成功了。如果Leader
0:只要发出去就不管了,这样的吞吐量最大,但可靠性最差。
-1:需要等待所有的followers接到消息后,才算发送成功,可靠性最高,吞吐量最小。
默认是1
六、 当consumer上线或者下线的时候,会发生什么?
需要重新确定partition和consumer的关系,这就是rebalance,会带来超时、抖动等问题。
七、怎样保证消息的有序性?