大部分内容是翻译至Kafka The Definitive Guide,有翻译不好的地方请见谅,想深入学习的小伙伴,建议去看一下这本书,因为理解问题翻译错误的地方希望指出,我会及时改进。
KEY TEAMS
Messages and Batches:
- kafka内的数据单位称为message。 message类似于一行或一条记录.
- kafka所关心的message数据只是一些简单的byte数组,kafka并不关心你的数据的格式与意义。
- key也是一个byte数组,跟message一样,它对于kafka而言也并没有什么意义.(key是用来路由的)
- 为了更好的传输效率, messages 的写入一都是以batch的方式进行。
- 一个batchj就是一个message的集合,一个batch中的所有message会被放到同一个topic中的partition中。
- batch通常还会进行压缩,这样也更加有效的提高了数据传输与储存。
Schemas:
- 对于kafka而言message就是没有意义的byte数组,Schema就能提供额外的结构与模式加强消息内容,方便理解。
- Avro,Json,XML,Customer,etc
Topics and Partitions
- kafka的tpoic就是message的分类。
- 对于topic的最贴近的比喻就是一个数据库的表或者是一个文件系统的文件夹。
- topic被分解成了一个或者多个partition
- messages以附加方式写入,并从头到尾按顺序读取。
-
一个topic通常被分成了多个partition,但是不能保证按照写入时间的顺序排序。但是一个可以。
(需要严格读取topic消息顺序的时候,只使用一个partition)
Producers and Consumers
- kafka客户是就是系统的用户,有两种基本类型:生产者和消费者。
- Producers创建消息,在其他的发布订阅系统中,被称为发布在或者写入者。
- 一般而言,一个message会被写入到一个特定的topic中。
- Consumers阅读消息。在其他发布/订阅系统中,这些客户可能被称为订阅者或读取者。
- Consumers订阅一个或多个topic,并按照其produce顺序读取消息。
- Consumers通过跟踪消息的offset来跟踪它已经消费的消息。
Offset
- offset是元数据中的一个(一个不断增加的整数值)kafka在每条消息生成时都会添加这个元数据。
- 每一个message在所在的partition中都有着唯一的offset,通过zookeeper或者kafka本身存贮着这个最后消费的offset,保证在Consumer在宕机或者重启之后不会丢失其读到的位置。
Consumer Group
-
在一个consumer group中工作的多个consumer,它们共同的去消费一个topic,并且确保了每个partition只有一个consumer可以进行消费。
(一个consumer group中的consumer不能消费同一个partition,但是一个consumer可以去消费多个partition)
Brokers and Clusters
- 一个kafak服务就是一个broker。
- 一个broker接收到producer的message后,为它们分配offset,并且将它们储存到硬盘上。
-
kafka broker 是cluster的运作的一部分。在一个cluster的多个broker中,其中的一个broker通过算法选举称为了一个cluster的controller。(从活动的成员中自动选举)
(多个Partition时,只有Partition的learder才能进对于该partiotion的读写,其余的都是副本而已)