原文链接https://kafka.apache.org/intro
Apache Kafka作为一个流分布式平台,到底意味着什么
我们认为,一个流处理平台具有三个关键能力:
- 允许发布订阅消息流,在这方面,类似于一个消息队列,或者企业消息系统。
- 高容错的存储消息流。
- 允许在消息流出现时实时地处理它们。
那么kakfa的优势体现在哪?
它应用于两大类应用上:
- 构建实时的数据流管道,可靠地获取系统或应用之间的数据。
- 构建一个基于流的应用,实时地转换或对数据流做出反应。
为了理解kafka是如何做到这些事情,让我们从下到上,深入挖掘kafka的能力。
首先是一些概念
- kafka是作为一个集群运行在一个或多个服务器上
- kakfa集群以topic的形式记录存储的消息流
- 每一条消息都包括一个key,一个value和一个时间戳
Kafka有四个核心的API
- Producer API:允许一个应用发布消息流到一个或多个topic里
- Consumer API:允许一个应用订阅一个或多个topic,处理它们产生的消息
- Streams API:允许一个应用充当一个流处理器,消费从一个或多个topic获取的数据流,处理之后生产输出流到一个或多个topic,可以有效地把输入流转换成输出流
- Connector API:允许构建可重复使用的消费者或生产者,把topic连接到现有的应用程序或者数据系统。
在Kafka中,客户端和服务端的通信是通过简单的、高性能、与语言无关的TCP协议。除了Java Client之外,还有好多其他语言的Client可以选择。
话题和日志(Topics & Logs)
先来深入地了解下Kafka里面的topic。Topic是发布的消息的类别或者种子(Feed)名。Kafka中的topic可以没有订阅者,可以有一个订阅者,也可以有好多订阅者。
对于每一个Topic,Kafka集群维护这一个分区的log,就像下图中的示例:
每一个分区都是一个有序的、不可变的消息队列, 并且可以持续的添加。分区中的消息都被分了一个序列号,称之为偏移量(offset),在每个分区中此偏移量都是唯一的。
Kafka集群在一个可配置的时间段内维持所有的消息,无论它们是否被消费。 比如这个时间段被设置为2天,那么这个消息在发布后两天内都能被获取并消费,两天后就会被丢弃以释放空间。
实际上消费者所持有的仅有的元数据就是这个偏移量,也就是消费者在这个log中的位置。 这个偏移量由消费者控制:正常情况当消费者消费消息的时候,偏移量也线性的的增加。但是由于实际上偏移量由消费者自己控制,所以消费者可以以任何顺序读取消息。举个栗子,一个消费者可以将偏移量重置为更老的一个偏移量,重新读取消息,或者设置为最新的值,跳过中间的消息。
可以看到这种设计使得一个消费者的操作不会影响其它消费者。 再说说分区。Kafka中采用分区的设计有几个目的。一是不受单台服务器的限制,一个分区可能会被持有它的服务器限制,但是Topic拥有多个分区,这就意味着它可以不受限的处理更多的数据。第二,分区可以作为并行处理的单元,稍后会谈到这一点。
分布式
Log的分区被分布到集群中的多个服务器上,每个服务器处理它分到的分区。 根据配置每个分区还可以复制到其它服务器作为备份来容错。 每个分区有一个leader,零或多个follower。Leader处理此分区的所有的读写请求,而follower被动的复制数据。如果leader宕机,其它的一个follower会被推举为新的leader。 一台服务器可能同时是一个分区的leader,另一个分区的follower。 这样可以平衡负载,避免所有的请求都只让一台或者某几台服务器处理。
生产者
生产者往某个Topic上发布消息,也负责选择发布到Topic上的哪一个分区。最简单的方式从分区列表中轮流选择。也可以根据某种算法依照权重选择分区。
消费者
消费者用一个消费者组名来标记自己。 一个发布在某个Topic上的消息被分发给此消费者组中的一个消费者,注意是一个哦。一个消费者可能在不同进程或者机器上。
如果所有的消费者都在一个组里,那消息可以被有效的均衡负载到每一个消费者。
如果所有消费者都在不同的组里,那消息会被广播到所有的消费者。
2个kafka集群托管4个分区(P0-P3),2个消费者组,消费组A有2个消费者实例,消费组B有4个。
更通用的, 我们可以创建一些消费者组作为逻辑上的订阅者。每个组包含数目不等的消费者, 一个组内多个消费者可以用来扩展性能和容错。