Zookeeper如何保证数据一致性

ZooKeeper保证数据一致性用的是ZAB协议。通过这个协议来进行ZooKeeper集群间的数据同步,保证数据的一致性。

两阶段提交+过半写机制:


image.png

ZooKeeper写数据的机制是客户端把写请求发送到leader节点上(如果发送的是follower节点,follower节点会把写请求转发到leader节点),leader节点会把数据通过proposal请求发送到所有节点(包括自己),所有到节点接受到数据以后都会写到自己到本地磁盘上面,写好了以后会发送一个ack请求给leader,leader只要接受到过半的节点发送ack响应回来,就会发送commit消息给各个节点,各个节点就会把消息放入到内存中(放内存是为了保证高性能),该消息就会用户可见了。

那么这个时候,如果ZooKeeper要想保证数据一致性,就需要考虑如下两个情况,情况一:leader执行commit了,还没来得及给follower发送commit的时候,leader宕机了,这个时候如何保证消息一致性?情况二:客户端把消息写到leader了,但是leader还没发送proposal消息给其他节点,这个时候leader宕机了,leader宕机后恢复的时候此消息又该如何处理?

ZAB的崩溃恢复机制

针对情况一,当leader宕机以后,ZooKeeper会选举出来新的leader,新的leader启动以后要到磁盘上面去检查是否存在没有commit的消息,如果存在,就继续检查看其他follower有没有对这条消息进行了commit,如果有过半节点对这条消息进行了ack,但是没有commit,那么新对leader要完成commit的操作。

ZAB恢复中删除数据机制

针对情况二,客户端把消息写到leader了,但是leader还没发送portal消息给其他节点,这个时候leader宕机了,这个时候对于用户来说,这条消息是写失败的。假设过了一段时间以后leader节点又恢复了,不过这个时候角色就变为了follower了,它在检查自己磁盘的时候会发现自己有一条消息没有进行commit,此时就会检测消息的编号,消息是有编号的,由高32位和低32位组成,高32位是用来体现是否发生过leader切换的,低32位就是展示消息的顺序的。这个时候当前的节点就会根据高32位知道目前leader已经切换过了,所以就把当前的消息删除,然后从新的leader同步数据,这样保证了数据一致性。

FAQ

Q:

  1. 同一个客户端,先发出写请求,leader将写请求事务广播给follow,如果半数follow成功,但是发出请求的follow没有成功,按照半数即成功的原理,leader会返回写操作成功,此时该客户端再读取数据,导致读取到的是旧的值,不符合同一个session写后读的保证
  2. leader对于一个事务在本地提交了,但是还没广播就down机了,那么从其余follow中选出的leader如何保证这个事务也被提交?

A:
1.zookeeper不保证读一致性,是弱一致性,如果要保证读到的数据是最新的,读取之前要使用sync方法

2.旧leader commit完就挂掉了,因为写入的follower肯定超过一半,新leader具有最大zxid,因此新leader就拥有commit的proposal,这时候只要提交该proposal并进行同步即可。如果旧leader只同步了一个follower就挂掉,该follower就是新leader,新leader同步该proposal然后同步即可。如果旧leader还没来得及同步就挂掉,该proposal在新集群中也不会存在,也不会成功,因此当旧leader恢复时就会被rollback。

Q:
客户端连接到某台follow,先执行写数据的操作,此时该操作会被发送到leader,然后原子广播事务提议,有半数follow同意了(假设发送这条写请求的follow由于某种原因没有没有同意),然后leader发送commit并让所有follow都commit(恰好发送写请求的follow又没有收到commit),然后leader返回写成功,之后同一个客户端再读取这个数据,因为这个客户端连接的follow并没有最终提交前面的写事务,就导致了写后读不一致,这个问题怎么解决的?

zab在崩溃选择时,根据什么决定proposal该被抛弃或者该被提交?比如最开始有5台server, leader把日志复制到了另外2台,leader在本地提交日志(或者还没来得及提交),然后立即挂了。剩下4台server, 有2台有这个日志,有2台没有,那么这个日志要不要保留?

A:

问题1:你说的是对的,但是 zookeeper 的读写一致不是在 server 做的,而是 server & client 配合的;client 会记录它见过的最大的 zxid (在你的场景下,就是这条写入 的 zkid),读取的时候,如果 server 发现 这条 zxid 比 server 端的最大 zxid 大,则拒绝,client 会自动重连到其他server(还在同一个 session) —— 最终会落到有新数据的 server 上,因为半数已经同意;

问题2:这个和选主有关系了,zookeeper 的选主,会尽量让 zxid 最大的那个 server 成为主;所以,在你的场景下,有最新数据的 leader 会成为主;然后再同步数据到其他机器,那么,这条 commit 的 log 便没有丢(相当于保留了);

读数据不是不保证一致性吗?有可能读到旧的

做sync后再读。当然,永远读到最新是不可能的。

sync后再读也不能保证读到新的. 因为sync之前如果刚好发生了选举,自己又连到老的leader上,老的leader还没有过期, 而sync目前又不要求quorum, 这种情况老leader就可能漏掉其他节点(新leader所在集群的)在sync之前发出的写请求. 不过ZK正在修复这点,会把sync改成要求quorum的.

对于问题2.只要数据被写进新leader的log了,均不会丢失,zk只要选出了leader,数据就是从leader这里为准了。leader的选举规则可以额外看看,总之就是zxid最大的当选。那么什么数据会被同步呢?只要被记录到log中的事务都不会丢失。那么可能你会疑问,如果事务没提交呢? leader在做restore的时候,会将日志中的proposal重新广播。

针对问题1;会有一个类似场景,就是比如clientA连接的服务端server1(follower),clientB连接的服务端server2(follower);clientA发起一个事务请求,只有server2没有应用这个事务。clientB去getData的时候,还是旧的数据。这种情况,哪些时机会去补偿?除了getData之前先执行下sync操作这个方法外,还有哪些时机吗?

没有了,zk不保证强一致性,所以clientb得到的数据可能为旧,这是zk cap设计中舍弃的,强一致性的数据可以从leader那里拿。

选举时发送的zxid是已经commit的还是log的? 我看源码FastLeaderElection里getLastLoggedZxid最终调的是zkDatabase的lastProcessedZxid,那么就算某个proposal被过半的follower log了,也有可能丢,因为选出的新leader不一定log了那个proposal

是log的,选举的时候是选取zxid最大的那个。选举成功需要过半节点在线,所以只要记录过半节点的记录就不会丢,因为新leader一定会含有这条记录

请教下大佬,对于第一个问题,Client写请求:leader对follow发送propose得到超过一半的follow的ack,那么对所有的follow执行commit。这里的是等所有follow都commit提交成功再返回给client写成功,还是发送完commit一半followcommit成功就给client返回写成功了?

ZooKeeper does not guarantee that at every instance in time, two different clients will have identical views of ZooKeeper data. Due to factors like network delays, one client may perform an update before another client gets notified of the change. Consider the scenario of two clients, A and B. If client A sets the value of a znode /a from 0 to 1, then tells client B to read /a, client B may read the old value of 0, depending on which server it is connected to. If it is important that Client A and Client B read the same value, Client B should should call the sync() method from the ZooKeeper API method before it performs its read.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,047评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,807评论 3 386
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,501评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,839评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,951评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,117评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,188评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,929评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,372评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,679评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,837评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,536评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,168评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,886评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,129评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,665评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,739评论 2 351

推荐阅读更多精彩内容