Pulsar工作原理

Client发起请求，包括读/写请求，会先发送到Broker，Broker来判定，当前请求消息的Cursor在哪个Bookie上，然后访问对应的Bookie读取/写入消息并返回。这个只是最简单的流程，Pulsar中有Cache机制，实际的流程会比这个更复杂一些。
出于消息可靠性的考虑，Pulsar会将消息存储多份，也就是说，相同的消息会存在多个Bookie上。

数据存储模型

关于消息数据的存储，首先要理解下面这张图，

20220112-Pulsar 工作原理-2022-01-17-10-10-54.png

上图中，从上到下，每个层次的名称是：Topic（主题），Ledger（账本），Fragment（片段），Entry（条目）。逐一解释一下，

Entry是存储的最小单位，在Pulsar中，Entry可以是一条消息或一组消息；
Fragment是多个Entry的组合，是BookKeeper上最小的分布单位，以Fragment为单位在多个Bookie上做数据冗余复制；
Ledger包含1个或多个Fragment，是BookKeeper的管理单元，进行可用性管理，Ledger一旦关闭就是不可变的（immutable），以Ledger为单位进行删除，无法删除单个Entry；
Topic包括多个Ledger，是最上层的逻辑概念，消费者可以对Topic进行订阅；

其中，Ledger、Fragment、Entry是BookKeeper中的概念，Topic是Pulsar中的概念。在Pulsar官方文档中还出现了Managed Ledger概念，没有特别看出和Ledger的差别，应该是和BookKeeper的Ledger等价的Pulsar概念。

在实际的物理结构上，数据存储的分布如下图，

20220112-Pulsar 工作原理-2022-01-17-10-11-20.png

可以看到，一个Topic对应多个Ledger，一个Ledger有1个或多个Fragment，不同的Fragment分布在不同的Bookie上，存储了多份。Ledger、Fragment如何切分，如何分布在Bookie的元数据，统一存储在Zookeeper。

存储结构与Kafka的最大差别是：一个Topic包含多个Ledger，Kafka是1个Ledger；以Fragment为单位进行分布式存储，Kafka是以Ledger为单位分布式存储。可以很明显的感觉到，Pulsar的存储分的很细，而且做到了物理存储结构与逻辑结构相隔离，最终达到，只要扩展Bookie集群就能提升整体可用性和性能。

什么时候切分Ledger和Fragment？
切分Ledger的时机有以下几个地方：

新建Topic；

当前Ledger达到大小上限，或时间上限；

Topic的Broker所有权发生变化；

切分Fragment的时机有以下几个地方：

新建Ledger；

写入Bookie失败；
也就是说，如果Bookie没有发生停机的情况下，Ledger和Fragment会是一对一的。

存储的高可用

存储的配置是以Ledger为单位来管理的，最重要的配置有三个，

Ensemble size (E)，全体数量
Write quorum size (Qw)，写入数量
Ack quorum size (Qa)，响应数量

全体数量，E，表示Ledger可以写入的总体Bookie池的Bookie数量；写入数量，Qw，表示对于每个Entry，Ledger需要写入的份数；响应数量，Qa，表示当写入返回多少个Ack时，返回给客户端，即写入成功。通常情况下，E >= Qw >= Qa。

Qa和Qw

先来看Qa和Qw，举例，Qa=2，Qw=3。也就是说，对于每个写入的Entry，需要复制3份，也就是存储在3个Bookie上；但只要已经收到成功写入2份的Ack，就表示成功写入，返回给客户端。在这个配置下，如果宕机了1个Bookie，数据是完全可以恢复回来的，但是宕机2个Bookie的话，数据就可能出现丢失。如果想宕机2个Bookie数据仍然可以不丢失，那么至少需要配置Qa=3。

也就是说，Qa是保证数据不丢失的最小数据复制份数，这个取决于应用场景，需要恢复何种宕机程度的数据。这个概念和Kafka的in sync replica很相似。

Qw和E

再来看Qw和E，举例，Qw=3，E=3。这个情况下，对于每个写入的Entry，需要复制到当前Fragment每个Bookie上，如下图，

20220112-Pulsar 工作原理-2022-01-17-10-12-46.png

可以看到，Entry按写入的顺序紧密排列，如果是Qw=3，E=5的情况下，可用Bookie的数量比写入Bookie的数量要多，写入的Entry的排列会出现空洞，如下图，

20220112-Pulsar 工作原理-2022-01-17-10-13-02.png

这样的现象，Pulsar称为Striping。这种情况下，写入的tps会提高，但是读取的性能会下降，最终增大整体的延迟。在这种情况下，BookKeeper的顺序读取被打破，降低整体性能，因此不建议使用。

因此，通常情况下，取E = Qw >= Qa，例如，E=3，Qw=3，Qa=2。

同样不建议取Qa=1。这是一个危险的设置，如果唯一的Bookie宕机，那么就不知道Entry是否已写入。Bookie的恢复会因无法进行而停止。

Brookie也可以配置机架感知（rack-awareness），当配置了机架感知策略时，Broker会尝试选取不同机架的Bookie节点。当然也可以自定义其他选取策略。

Broker和Topic所有权

Pulsar的Broker不存储数据，因此也不会丢失。Jack Vanlightly的博客原文是这样，

Pulsar brokers have no persistent state that cannot be lost.

这里并没有无状态的意思，很多中文翻译博客把这里翻译成，Broker是无状态的，甚至把这一句放在非常开头的地方，但其实是不对的。Broker只是不存储有状态的数据而已，本身在内存中是有状态的。Broker和其他Broker并不对等。

每个Topic都归一个Broker所有，所有的读写都需要通过这个Broker进行。写入过程如下图，

20220112-Pulsar 工作原理-2022-01-17-10-13-57.png

可以看到，上图例子中，Qw=3，Broker收到写入请求的时候，先写入Bookie，Bookie完成写入请求后返回Ack，Broker收到Qa个Ack后返回Ack给客户端。如果Bookie返回失败或者无返回，那么Broker会发起创建新Fragment。

读取过程如下图，

20220112-Pulsar 工作原理-2022-01-17-10-14-11.png

因为Topic所有的请求都需要通过所有者Broker，那么，我们可以在这个Broker上引入Cache机制，提升读的QPS。

这样的缓存机制会对不同消费者有比较大的性能差异，如果是追尾消费者（tail reader），即一直追踪Entry最新变化的消费者，当有Entry写入时，会更新Cache，于是直接从缓存中取走Entry；但如果是追赶消费者（catch-up reader），即读取的是老的Entry，例如消费者宕机后重启，中间堆积了一段时间的消息的情况，此时，缓存中没有数据，必须去Bookie上读取，再返回给客户端。由于无法直接从缓存获取Entry，追赶消费者获取消息的性能是要比追尾消费者差很多的。

Broker故障恢复

Broker因为是有状态的，无法做到非常完美的灾备切换，只能在故障后尽快恢复Broker的工作场景。

Broker故障恢复中有一个非常重要的概念，最新确认序号（Last Added Confirmed ，LAC）。这个表示当前Ledger最后commit的序号，也就是收到Qa个Ack的Entry的序号。Pulsar约定，读取数据不可以读取LAC之后的数据，读取LAC之后的数据是没用一致性和正确性保障的，视为脏读。

理解LAC之后，就可以理解Broker故障恢复的栅栏阻挡机制（Fencing）了。步骤如下，

当前Broker B1，拥有Topic X，被Zookeeper确认为不可用；
另一个Broker B2 将Topic X 的当前Ledger状态从OPEN修改为IN_RECOVERY（应该是修改Zookeeper的状态）；
B2发起栅栏阻挡LAC请求（Fencing LAC Request）给当前Fragment/Ledger的所有Bookie，并等待(Qw-Qa)+1个响应。一旦收集齐，Ledger就被阻挡了。即使B1仍然存活（如B1网络断线重连场景），也无法写入消息，因为无法获得Qa个Ack，会返回Fencing异常；
B2得到最大的LAC，然后从LAC+1开始对Bookie上的数据进行恢复读取，确保从LAC+1开始，每个Entry都被复制到Qw个Bookie。这主要是由于一些Bookie的Ack之前没有传输到B1。一旦B2处理完Bookie上所有Entry，无法读取到新的Entry了，数据恢复就完成了；
B2将Ledger的状态设置为CLOSED；
B2创建一个新Ledger，并开始接收Topic的消息写入和读取；

Fencing解决方案解决了脑裂问题，也没有数据丢失。故障恢复，Ledger的状态流程图，

20220112-Pulsar 工作原理-2022-01-17-10-15-01.png

这个方案和 Raft Leader 的故障恢复机制实际上是没有什么差别的，应该是有所借鉴。至于解决了脑裂，这个也不是真正解决，也是由于消息系统的特性导致的直接结果。为什么这么说呢？

Raft 中也有类似的概念，叫 committed index（Pulsar与之对应的是LAC），只有在收到多数节点写入 Entry 返回成功之后，才可以更新 committed index，再更新 Entry 到状态机中，并返回给客户端。对尚未更新 committed index 的 Entry，Raft 也是不可读的。可以发现，Pulsar 的 Fencing 和 Raft 的机制几乎一致，但是 Raft 有脑裂问题。

先回顾一下 Raft 的脑裂问题。当 Raft Leader 节点故障发生时，例如 Raft Leader 网络断开，其他节点已经发现当前 Leader 超时，并发起下一轮选举投票，快速选举出新的 Leader，但是老 Raft Leader 的 Follower 无响应超时时间尚未到达，导致老 Leader 仍然认为自己是真正的 Leader，并响应客户端的请求，因此导致客户端读取到了旧的数据。而与此同时，部分客户端连接到了新 Raft Leader，写入并读取到新的数据，造成不一致，这是 Raft 发生脑裂的原因。Raft 发生脑裂不会持续很长时间，当老 Leader 发现长时间没有收到 Follower 响应而超时（主要取决于超时参数的配置），或者发现有新 Leader 产生时，老 Leader 就会将自己重置为 Follower。

那使用了同样机制的 Pulsar 为什么就没有脑裂问题呢？那是因为，Pulsar 是个消息系统，写入的消息类似 WAL，是不可变的（immutable），追加的。当发生和 Raft 一样的故障的时候，老的 Pulsar Broker 也会读到老的数据，但老的数据仍然合法，因为对同样的 Cursor，在新的 Broker 上也是读到相同的数据，只要读取 Entry 不超过 LAC 就没问题，最多只是无法获取到最新的消息而已，获取的消息并不会错。而 Raft 的存储是偏向于通用存储场景，因此就会有新旧数据版本不一致的问题。

脑裂一般都是指读取数据发生的不一致，如果是写入数据的脑裂，那可能是分布式算法有问题，成熟的算法一般不会有这个问题。

Bookie存储

BookKeeper的存储引擎是可插拔的，默认是DbLedgerStorage，整体架构如下，

20220112-Pulsar 工作原理-2022-01-17-10-15-27.png

Bookie写入的流程如下，

20220112-Pulsar 工作原理-2022-01-17-10-15-39.png

Bookie是一个有WAL的消息存储，写入时，会先写入WAL（Journal），再写入Write Cache。Write Cache会定期的将数据排序并写入磁盘的Entry Log文件中。排序过程，将不同Ledger的消息聚合在一起，这样，在读取Ledger的时候，就是完全的磁盘顺序读。如果没有排序聚合的话，就无法获得顺序读的性能。

写入Write Cache的时候，也会把索引信息写入RocksDB，索引信息很简单，就是 (ledgerId, entryId) 到 (entryLogId, 文件偏移量) 的映射。

Bookie可以缓存最近写入的Entry和最近读取的Entry，读取的顺序是： Write Cache -> Read Cache -> Bookie上的Entry。当两个缓存都没有命中的时候，会到RocksDB中查找该Entry所在的文件和偏移量，并读取该Entry，然后缓存再Read Cache中，以期之后可以命中。

BookKeeper可以支持磁盘IO分离，将写入WAL的放在一个高速磁盘上，其他数据放在低速磁盘上。当有写入Entry请求时，只会发生写WAL的磁盘同步IO操作，其他都是写入内存缓存。同时，以异步的方式，将Write Cache中的数据以批量写的方式写入到Entry Log文件和RocksDB中。

Bookie的Journal可以有多个，但和Ledger并不是一一对应的。4.5.0之后的BookKeeper可以配置journalDirectories参数，如，journalDirectories=/tmp/bk-journal1,/tmp/bk-journal2，配置多个目录，由Bookie统一管理。

Bookie故障恢复

当Bookie故障的时候，所有在这个Bookie上有Fragment的Ledger都需要复制。恢复过程是重复制Fragment，来确保每个Ledger满足Qw个复制因子。

有两种恢复方法：自动和手动，主要讨论自动方案。自动方案包括内置的故障节点检测机制，手动就需要人为干预。具体的复制过程，两者是一致的。

恢复过程可以通过在Bookie集群上运行AutoRecoveryMain来完成。其中一个自动恢复进程被选举为Auditor，Auditor来检测故障的Bookie，然后，

从Zookeeper读取所有Ledger列表，找到故障Bookie上的Ledger；
对上述每个Ledger创建一个重复制任务，并记录在Zookeeper的/underreplicated Znode上；

如果Auditor失败，就再选举一个Auditor。Auditor只是AutoRecoveryMain的一个线程。AutoRecoveryMain也有运行Replication Task Worker的线程，每个Worker监听/underreplicated Znode获取任务。发现任务后，就尝试lock住这个任务，如果lock失败，说明其他Worker已经拿到这个任务，就去寻找下一个任务。

如果获取到了锁，那么需要，

扫描Ledger的Fragments，找到那些当前Bookie不属于的Fragment；
对那些匹配的Fragment，从另一个Bookie上把数据复制到本地，然后更新Zookeeper，并将此Fragment标记为完全复制；

如果Ledger的所有Fragment都已经完全复制，则删除/underreplicated任务；如果仍然存在未完全复制的Fragment，则释放锁，等待其他Worker处理。

如果一个Fragment没有结束Entry id，Worker的复制任务会等待并再次检查。如果还是没有，说明之前的数据副本可能没有完全写入，会发起Fencing任务，然后再继续重复制。

注意：自动恢复机制和Fencing机制是有差别的。
Fencing机制主要是处理Broker故障的场景；自动恢复机制是处理Bookie故障的场景。
虽然自动恢复机制在某些边界情况下回调用到Fencing机制。

总结

总结部分直接抄了中文翻译，

每个Topic都有一个归属的Broker。
每个Topic在逻辑上分解为Ledgers、Fragments和Entries。
Fragments分布在Bookie集群中。Topic与Bookie并不耦合。
Fragments可以跨多个Bookies带状（Striping）分布。
当Pulsar Broker不可用时，该Broker持有的Topic所有权将转移至其他的Broker。Fencing机制避免了同一个Topic当前的Ledger同时有两个所有者(Broker)。
当Bookie不可用时，自动恢复(如果启用)将自动进行数据重新复制到其他的Bookies。如果禁用，则可以手动启动此过程。
Broker缓存尾部消息日志，可以非常高效的为尾部读取操作提供服务。
Bookies使用Journal提供持久化保证。该日志可用于故障恢复时恢复尚未写入Entry Log文件的数据。
所有Topic的的条目都保存在Entry Log文件中。查找索引保存在RocksDB中。
Bookies读取逻辑如下：Write Cache -> Read Cache -> Log Entry Files(RocksDB 作为索引)
Bookies可以通过单独的磁盘做IO读写分离。
Zookeeper存储Pulsar和BookKeeper的所有元数据。如果Zookeeper不可用整个Pulsar将不可用。
存储可以单独扩展。如果存储是瓶颈，那么只需要添加更多的Bookies，他们会自动承担负载，不需要Rebalance。

后记

Jack Vanlightly在博客中表示，Pulsar的两个突出特点是，

将Broker与存储分离，结合BookKeeper的Fencing功能，优雅的解决了脑裂问题，并防止了数据丢失；
将Topic分割为Ledger和Fragment，然后将将他们分布在整个Pulsar集群上，因此扩展变的容易。新的数据自然会写到新的Bookie上，不需要再进行再平衡（Rebalancing）；

后一点应该是独创，前一点应该是借鉴了Raft，之前提到过。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 227,428评论 6赞 531
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 98,024评论 3赞 413
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 175,285评论 0赞 373
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 62,548评论 1赞 307
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 71,328评论 6赞 404
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 54,878评论 1赞 321
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 42,971评论 3赞 439
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 42,098评论 0赞 286
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 48,616评论 1赞 331
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 40,554评论 3赞 354
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 42,725评论 1赞 369
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 38,243评论 5赞 355
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 43,971评论 3赞 345
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 34,361评论 0赞 25
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 35,613评论 1赞 280
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 51,339评论 3赞 390
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 47,695评论 2赞 370

Pulsar工作原理

Pulsar工作原理

Pulsar的总体架构

数据存储模型

存储的高可用

Qa和Qw

Qw和E

Broker和Topic所有权

Broker故障恢复

Bookie存储

Bookie故障恢复

总结

后记

推荐阅读更多精彩内容