Apache Bookeeper —— 高可用日志服务开源组件

数据库事务使用日志文件,辅助实现数据库事务。

在分布式系统中,为了获得高可用性,通常会对数据进行复制,以维持数据的多个可用副本。

通过重做日志实现数据复制的思想已经广泛使用,例如,MySQL使用binlog复制从库,Zookeeper主节点向从节点广播操作所有操作序列。

我们需要一个可靠的日志服务组件。但是,要在项目中实现一个高可用的复制方案着实不易,要考虑的问题很多,硬盘故障导致数据丢失,应用宕机数据要恢复,在线扩容应用后数据要再平衡等等。

如果有一个高可用的日志服务,能够按顺序记录应用的所有写操作,我们的复制架构就可以简化为:

1)主节点先写操作日志Write-ahead Logging (WAL),然后修改主节点本地数据。  
2)从节点通过Tail操作日志,完全回放主节点的写操作,从而与主节点的数据保持完全同步。

Apache Bookeeper 的目的就是提供这种高可用分布式日志存储服务。Bookeeper最初是Hadoop用来在线备份HDFS NameNode写操作的日志存储服务,后来成为Apache的一个独立子项目。目前,Apache Pulsar,Twitter通用日志服务组件等很多项目都在使用bookkeeper作为底层存储方案。

Bookeeper采用无主复制方案实现数据复制,它的目标是:高效写,高错误容忍性。

无主复制方案中没有主副本,每个副本是平等的,都需要处理读写操作,依赖多数裁决的方式,来确定操作结果。  
1)写操作
   写操作发送给所有N个副本,在获得超过半数副本确认后,即认为写成功。  
2)读操作
   从超过半数的节点读,由于读写的副本集合存在交集,那么一定可以读到写操作的结果。

Bookeeper使用的是相对==宽松的==的无主复制方案,它放宽了读写副本数量的限制,不要求一定超过半数。

创建Ledger时,指定保存数据的bookie节点数E,写节点数Qw,确认节点数Qa,满足: E >= Qw >= Qa 即可。
这带来了很有趣的特性,当E>Qw时,意味着每一次写都只会更新部分节点,Bookeeper利用这个特点,实现了条带化写(类似Raid0的条带化),使写操作均匀分布在E个节点上。

发生条带化写时,每个节点只保存了一部分数据,因此,读操作需要从多个节点读。

应用需要综合考虑对吞吐量、可用性、数据持久性的要求,使用合理的(E,Qw,Qa)创建Ledger。高吞吐量=>增大E,减小Qw,高可用性=>减小Qa,数据持久性=>增大Qa。

Bookeepr提供的数据一致性保证是:顺序写(写操作不乱序,前面的数据确认前,不会确认后面的数据),前缀一致读(不会发生数据回滚)。

对每一个Ledger只允许一个Writer,和多个reader,读写可以并行。但是,由于writer只在关闭ledger时才会把该ledger的LastCommitId更新到ledger的元数据中(在zk中保存),reader没有办法实时获取当前ledger的最新数据进展。当然,reader可以使用屏蔽读打开ledger,这会强制writer关闭ledger。也就是说,读写没办法并行。

在Pulsar中,为每一个topic(由多个ledger构成)指定一个owner,所有消息读写操作都通过owner进行。因此,owner不需要经过zk,就知道LastCommitId,因此可以提供实时的读写并发服务。

可以从Bookeeper官网了解基本概念,相关在资料在文末有链接,这里谈一些笔者自己的理解。

1.Bookeeper的可扩展性怎么体现?

Bookeeper数据存储的逻辑模型:

Bookeeper存储模型

Ledger的元数据格式:

Bookeeper元数据模型

当创建或重新打开ledger时,会创建一个新的fragment,分配保存数据的bookies。另外,在写数据过程中某一个bookie出现故障时,也会关闭当前frament,创建新的frament,并重新分配保存数据的bookies(不包含出故障的bookie)。

因此,fragment是bookeeper最小的逻辑数据单元,数据持久化的保证也是在fragment的级别上起作用。

通过把应用的日志和数据流分割成一个一个的segment,每个segment存储在Bookeeper的一个ledgers中,数据自然就分布在整个数据集群中。

这样处理的好处:逻辑日志和物理存储解耦,日志大小不局限于单个服务器的存储空间;存储集群中增加新服务器后,新创建的ledgers会自动利用新增的存储空间。

2.什么是条带化写,它带来什么好处?

Bookeeper的复制方案对Write Quorums方案做了一些优化,

E : 副本个数
Qw: 写副本数量
Qa: 等待响应副本数量

E >= Qw >= Qa。

当Qw=E时,Writer向所有Bookies发送写请求。
当Qw<E时,Writer只向部分(Qw)Bookies发送写请求,这就是所谓的条带化写。

选择写Bookies的方式是从第entryid%E个副本开始,向Qw个副本发送写操作。
由于entryid是一个单调递增的值,可以想象,数据被均匀分布在整个副本集E中。

由于条带化只写Qw个Bookie,它降低了系统的IO压力。

3.怎么处理Bookies异常?

writer向Qw个副本发生写操作请求,当收到Qa个Ack时,认为写入成功。

当未收到某个Bookies的响应时,Writer就关闭当前ledgers,设置ledgerslast commit id。然后,新建一个ledgers(新分配的Ensembles不包含出问题的Bookies),开始后续的写操作。

4.当writer异常宕机后,如何正确修复数据和关闭ledgers

当writer发送故障宕掉时,ledgers会处于未关闭状态,后续的writer/reader必须先修复数据:
a) 在zk中把ledgers置为恢复状态;
b) 通过RPC要求所有相关的Bookies屏蔽该ledgers的所有后续写操作;
c) 向所有Bookies读取该ledgers最后提交的entryId,在收到Qw个Ack后,确定该ledger的最大highEntryId;
d) 从ledger最后活动的fragment头部开始,逐条读取数据,确保每一个entry都有Qw个副本;
e) 最后,在zk修改ledgers为关闭状态,并把最后有效记录置为highEntryId。

5.Bookie如何确定消息的commit状态?如何实现pipeline写?

Bookeeper使用一个类似两阶段提交的方式确定最后提交的entryId,有两种方式发送commit消息,

a)捎带:每条写消息都会携带当前已经提交的最大entryId(writer收到Qa个Ack的消息)。
b)单独发送:在指定时间内没有新消息发送时,单独发一个commit控制消息WriteLacRequest 给Bookies。这个消息对reader不可见。

一旦Bookie收到一个commit entryId,就意味着这个entryId及之前的所有消息都是committied,对reader可见。
写操作和commit在逻辑上是两个独立的操作,很容易在writer实现pipeline写。
例如,当前writer确认当前commitId为100,这时候连续发送了110、111、112三条消息,消息中携带的last commit id都是100。过了一段时间writer收到Qa个对108号消息的确认,在后续发送的113号消息(或者因为没有后续消息,单独发送一个commit消息)中携带的last commit id就要写上108,Bookies收到消息后就可以确认108以前的消息都是已提交的,reader可见。

6.读操作有哪些方式?

常见的两种read方式:
a) 指定entryId读(ReadRequest),读取一条entry。
b) 长轮询(ReadLacRequest),实时读最新的记录,达到tail账本的目的。

因为是Quorums读,reader就需要从多个Bookies读数据,这也存在多种方式,
a) 顺序请求,依次向E中的副本读数据,直到读到为止(考虑Bookies数据损坏,或发生条带化写)。
b) 并发请求,同时向E中的所有副本读数据。

7.Bookeeper在zk里保存什么数据?

Bookeeper使用zk:
a) 保存ledger元数据,包括E、Qw、Qa配置,fragment列表,状态(OPEN/CLOSE/RECOVERY)、last commit entryId等。
b) 当使用Log Api时,还要保存Log的元信息。

近来Bookeeper社区有一种声音,要使用etcd代替zk,考虑点:

1. Zookeeper’s log is only exposed through a tree like interface. It can be hard to shoehorn your application into this.
2. A zookeeper ensemble of multiple machines is limited to one log. You may want one log per resource, which will become expensive very quickly.
3. Adding extra machines to a zookeeper ensemble does not increase capacity nor throughput.

另外,Etcd已经在k8s中集成,使用Etcd更方便部署。

8.Bookeeper在存储实现上有哪些优秀的设计?

Bookeeper存储有4个核心组件:

  • Journals: WAL日志,提升吞吐量,防止数据丢失。
  • Index:为每一个entry,保存在EntryLog文件中的位置索引,{(ledgerId,entryId), offset}。
  • EntryLog:顺序保存所有ledger的消息,当bookie启动,或者文件过大时,创建新的EntryLog。
  • WriteCache:写操作在同步写入Journals日志,在内存缓存。
  • ReadCache: 读操作时先读WriteCache(因为这是最新写入的数据),如果找不到则从ReadCache查找,如果还没有,则通过Index查找entry的文件偏移,从文件把数据读入ReadCache,最后返回数据给reader。

Bookeeper的Journals日志是同步顺序写,Endex和EntryLog是异步顺序写(后台线程周期性fsync()),把它们放在不同磁盘上,可以充分发挥Bookeeper的IO性能。

参考Understanding How Apache Pulsar Works

9.Plusar使用Bookeeper的基本原理?

Plusar可以认为是建立在Bookeeper/Zookeper上的一个Proxy,

  • 使用多个ledger序列来保存一个topic的数据,获得极大的吞吐量和存储扩展性。
  • 为每个topic指定一个owner proxy,主题的读写都通过这个owner进行,巧妙的处理了bookeeper中reader无法及时获取ledger的LastCommitId的问题。
  • 在proxy上维护cache,减少向bookeeper存储读取数据的次数,提升性能。
  • Plusar有一些后台进程,在不断扫描和修复数据,确保每一个fragment都有Qa个副本。
  • 基于bookeeper的数据可靠性保证,向Plusar的用户提供数据可靠性保证。
  • Plusar可以为每个消费组提供:独占、共享、主备三种访问语义。

从Plusar的底层模型推断,Plusar可以提供"恰好一次"发布语义,

  • 当writer不出故障时,Bookeeper存储模型可以保证这一点;当writer故障时,reader可以正确关闭ledger,writer重启后,通过查看ledger的lastCommitId可以知道最后提交的消息,不会发生消息丢失和重复)。
  • 但是对于reader来说,它可能在消费了数据,但没有提交commit时意外的挂掉。再重启后,就会读到重复的数据。对这种跨系统的”恰好一次“投递语义,需要应用程序介入。

参考资料

  1. concepts
  2. protocol
  3. BP-28-etcd-as-metadata-store
  4. bookeeperOverview
  5. intro-to-bookkeeper
  6. why-apache-bookkeeper-part1
  7. why-apache-bookkeeper-part2
  8. Scaling out Total Order Atomic Broadcast with Apache BookKeeper
  9. Understanding How Apache Pulsar Works
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,132评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,802评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,566评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,858评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,867评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,695评论 1 282
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,064评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,705评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,915评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,677评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,796评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,432评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,041评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,992评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,223评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,185评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,535评论 2 343

推荐阅读更多精彩内容