深入分区
Topic至少有一个分区、可以有多个分区。通过创建时的参数
--partitions
来指定分区数。消息被添加到分区中时,会有一个偏移量
offset
来唯一标识一条消息。因此同一个分区内的消息是顺序的,不同分区中的消息顺序无法保证。下图中展示了该topic有3个分区,每条消息在被添加到分区中时都有唯一的
offset
-
topic分区中的消息存储在日志文件中,而且有过期时间,在
server.properties
文件中配置,默认保存7天。log.retention.hours=168
-
分区的设计可以提高kafka的消息吞吐量TPS:
- 容易水平扩展,只需增加新的broker,建立新的分区,就可以接收同一个topic的消息
- 同一个topic的信息会发送到该topic的不同分区,并行处理消息。
分区实例
-
首先依次启动zookeeper和kafka,并使用下面的命令创建一个有3个分区的topic。
bin/kafka-topics.sh --zookeeper localhost:2181 --create --topic topic5 --replication-factor 1 --partitions 3
-
启动一个producer,并发送一系列消息
可以看到,consumer接收到的消息是不连续的,这正是分区导致的:
producer向3个分区写入消息,consumer从3个分区拉取消息。分区内的消息通过offset
保证连续,但分区之间的消息顺序无法保证。