Apache Pulsar 架构解析（3.2版本）

Apache Pulsar 是一款开源的分布式消息系统，它设计用于高性能、可靠的云原生环境，可支持大规模、多租户的消息与流数据传输。在深入理解 Pulsar 之前，我们先从它的整体架构说起。

1、Pulsar 是什么？

Pulsar 本质上是一个分布式消息与流处理平台。它与 Kafka 等系统类似（对比如下），但提供了更加灵活的架构设计，例如存储与计算分离、原生支持多集群复制、以及多租户管理等。

对比维度	Kafka	Pulsar
存储模型	基于 Partition 分区+副本存储	基于 Ledger→Segment→Entry 分层存储
消费模型	消费者组模式，1 分区对应 1 消费者	订阅+Cursor 模式，多订阅独立消费
部署复杂度	去除 ZK 后部署简单	依赖 ZK+BookKeeper，部署较复杂
多租户支持	无原生支持	原生 Tenant+Namespace 三级隔离
吞吐量（2c4g）	20 万级 QPS	100 万级 QPS

2、 Pulsar 体系结构总览

Pulsar 的总体架构可以粗略分为以下几个层级：

Pulsar 实例（Instance）：可以包含多个物理或逻辑上的 Pulsar 集群。
Pulsar 集群（Cluster）：是一个完整的 Pulsar 单元，包含消息处理与存储组件。
跨集群复制：集群之间默认是互不干扰的，可以通过开启Geo-replication让集群间的数据进行复制同步（比如可以让topic1 在 cluster-a、cluster-b各自有一份数据）。

Pulsar 总体架构

本篇我们主要聚焦 Pulsar 的核心架构组件以及它们之间如何协同工作。

3、核心组件解析

3.1 Broker（入口及核心）

Broker 是 Pulsar 的“入口”和“调度中心”。它负责：

接收生产者（Producer）发送的消息；
将消息分发给消费者（Consumer）；
维护客户端连接；
与 ZooKeeper 和存储服务（BookKeeper）协调。

Broker 本身是无状态的，它不直接存储消息，而是负责管理流转与缓存。只有在本地缓冲不足时它才会从存储系统拉取数据。

3.2 BookKeeper（又名Bookie，持久存储）

Pulsar 使用 Apache BookKeeper 作为消息的持久化存储层。它的优势包括：

将每个主题的数据写入多个独立的日志（称为 ledgers）；
支持高可靠性数据复制；
横向扩展能力强，并且读写性能良好。

消息由 Broker 写入 BookKeeper，只有成功写入后才被认为是可靠的持久消息（除非使用非持久消息）。

3.3 ZooKeeper（协调与元数据）

Pulsar 使用 ZooKeeper 作为元数据管理与协调服务，包括：

集群配置和负载信息；
主题所有权与分区信息；
Broker 与 BookKeeper 之间的协调。

整个 Pulsar 系统至少会有两个 ZooKeeper 集群：

配置存储（Configuration Store）：负责跨集群配置；
本地集群 ZooKeeper：协调同一集群内部的 Broker 与 BookKeeper。

PS: 新版本的pulasr可被 etcd 替代了

3.4 Pulsar Proxy（可选入口）

在某些场景下，客户端不能直接访问 Broker，例如：

受到网络策略限制；
使用云环境、Kubernetes 等平台。

这时可以使用 Pulsar Proxy，作为客户端与 Broker 之间的中间入口，处理连接代理和负载，Pulsar 支持用一个统一的服务 URL，让客户端只需接入这个入口即可与整个 Pulsar 实例互动。背后会将请求路由到正确的 Broker。

4、Pulsar 的工作流程

下面是一条消息从生产到消费的核心路径：

生产者发送消息给 Broker；
Broker 将消息写入 BookKeeper 持久存储；
BookKeeper 将日志记录到多个 Bookie（存储节点）；
消费者从 Broker 拉取消息，Broker 使用缓存或从存储读取数据。

Pulsar 工作流程

这种存储与处理分离的架构使得 Pulsar 在负载激增、集群扩容时表现稳定且可预测。

参考链接

原文：https://pulsar.apache.org/docs/3.2.x/concepts-architecture-overview/

Apache Pulsar 架构解析（3.2版本）