一、发布与订阅系统
在讲Kafka之前,我们先来聊聊发布与订阅模式。
在维基百科里面,发布订阅模式是这么定义的:
In software architecture, publish–subscribe is a messaging pattern where senders of messages, called publishers, do not program the messages to be sent directly to specific receivers, called subscribers, but instead categorize published messages into classes without knowledge of which subscribers, if any, there may be. Similarly, subscribers express interest in one or more classes and only receive messages that are of interest, without knowledge of which publishers, if any, there are.
Publish–subscribe is a sibling of the message queue paradigm, and is typically one part of a larger message-oriented middleware system. Most messaging systems support both the pub/sub and message queue models in their API, e.g. Java Message Service (JMS).
从上面的介绍可以归纳三点:
1.它是软件工程里的一种设计模式。
2.主要存在发布者和订阅者两大角色,发布者不需要关心发的消息都有谁订阅,订阅者只关心pick哪些消息,而不需要关心消息是谁发布。
3.它是消息队列范式的姊妹,围绕这个模式产生了许多消息中间件模型。
这里我们举《Kafka权威指南》里服务质量指标这个例子,来看看常见的发布订阅系统长什么样。首先,假设现在业务方需要对几个前端服务器的服务质量进行检测,这里新增一个可查看度量指标的服务,分别让几个前端服务和这个度量指标服务做直连,我们就可以通过这个新建的“仪表盘”观察服务质量。
随着业务发展,我们对业务的度量标准不断扩大,我们可能不止要一个仪表盘,还需要对收集到的数据进行分析,对活动进行监控,如果按照上面的思想去对服务进行扩展,那么整个架构看起来就很是杂乱无章。
为了方便管理,降低架构的耦合程度,我们可以增设一个管理各种指标的中间服务,负责接收来自不同程序的度量指标数据,然后让各个度量服务自己来这个中间服务筛选自己想要的数据去进行分析。
二、常用消息队列比较
下面列举了几个常用的消息队列之间的对比。
三、Kafka架构简介图
这里涉及到的组件和概念有Producer,Consumer,ConsumerGroup,topic,broker,partition等等。相关概念可以查阅Kafka官方文档,这里主要是列几个要关注的点:
1.每个topic可以有多个partition,一个topic只能保证同一个partition里面的消息有序,不能保证不同partition的消息有序
2.同一个topic可以分布在不同的broker,其中一定要有一个broker是属于leader,其他broker的topic作为备份
3.消费者消费消息以group为单位,同一个group内的消息只能被消费一次,所以对于上图,如果topicA来了一条数据a,consumer1和consumer2两者只有其中一个可以消费这条数据a,而如果Consumer3也订阅topicA,则不受影响,可以消费a。这里可以看作Consumer3自己也是一个Consumer Group。
4.每一个broker和Consumer,都交由zookeeper去做服务注册与发现,同时zk还有选举功能,当其中一个topic的leader所在的broker下线时,zk可以选举其他备份的broker作为新的leader,producer生产的所有数据都会重新指向这个新leader。