zookeeper

ZooKeeper保证只要大多数服务器可用((N+1)/(2N+1)),整个服务就是可用的

guarantees

  • 顺序一致性(Sequential Consistency): 客户端的更新会按照发送顺序进行操作。
  • 原子性(Atomicity): 更新操作只会是成功或失败,不存在其他异常结果。
  • 单一视图(Single System Image): 客户端无论连接到哪个server,看到的都是相同的视图。
  • 可靠性(Reliability): 当更新操作被执行后,它将一直有效,直到下一次更新操作的执行。
  • 及时性(Timeliness): client的视图保证在一定时间内能得到更新。

znode

ZNode由两部分组成:协调数据状态数据

  • 协调数据: 业务相关的数据
  • 状态结构数据包含: 数据变更的版本号, ACL(Access Control List)变更,时间戳,以用来缓存验证和协调更新。每次Znode数据发生变化,版本号就会自增。

znode type

zookeeper 类似于一个文件系统, 数据以文件路径节点的方式存储, 但是节点有4种类型, 由 1,2,1+3,2+3组合而成

  1. Ephemeral, ephemeral节点是临时性的, 如果创建该节点的session结束了, 该节点就会被自动删除. ephemeral节点不能拥有子节点
  2. Persistent, persistent节点不和特定的session绑定, 不会随着创建该节点的session的结束而消失, 而是一直存在, 除非该节点被显式删除.
  3. Sequence, sequence并非节点类型中的一种. sequence节点既可以是ephemeral的, 也可以是persistent的. 创建sequence节点时, ZooKeeper server会在指定的节点名称后加上一个数字序列, 该数字序列是递增的. 因此可以多次创建相同的sequence节点, 而得到不同的节点
    1. 计数器是由父节点控制, 直接对下级节点生效
    2. 每个父节点都会负责维护其子节点创建的先后顺序,并且如果创建的是顺序节点(SEQUENTIAL)的话,父节点会自动为这个节点分配一个整形数值,以后缀的形式自动追加到节点名中,作为这个节点最终的节点名。

sessions

client通过TCP连接到单个server,通过该连接发送请求,获取响应,获取监视事件以及发送心跳,当该TCP连接断开后,client会自动连接到其他server

ZK Client通过ZooKeeper提供的client binding 代码(官方提供:C/Java两种Client API)创建一个handle来和ZooKeeper服务建立Session连接。创建一个handle进行连接后,client会处于CONNECTING状态,然后client library会进行尝试对ZK服务集群中的server发起连接,成功后client会置为CONNECTED状态。当发生不可恢复的错误,例如会话过期,鉴权失败,或者client主动进行关闭,handle会切换为CLOSED状态

当client session state从CONNECTED由于disconnected事件变成CONNECTING后,不建议创建新的session对象进行连接,因为ZK client library会自动进行重连,特别ZK client lib中内置了一些启发式方法来处理“羊群效应”之类的事情。在使用过程中,仅需要在收到会话到期通知时进行新会话的创建???(这里要看client的实现)

  • 会话的超时管理是由ZK server负责的,不是由client负责。当ZK client 创建一个session时传入了一个合法的timeout,ZK集群就会根据该值对client的session进行过期管理。当集群在设定的timeout时间段内没有收到client的请求(心跳),集群就会认定该session过期了,集群就会将session拥有的ephemeral nodes全部删除,并通知到所有监听被删除nodes的clients(CONNECTED),如果此时该过期session的client仍然是未连接状态,将不会通知到该client,且该client将一直处于disconnected状态直到该TCP连接重连成功,重连成功后其将会收到SESSION_EXPIRED的通
  • session的保活是通过client来发送请求来实现,当在一段时间内session处于空闲状态,client会发送PING请求来使session保活,PING请求不仅可以让ZK集群直到client是活的,也能让client知道到ZK集群的连接是否是活的
  • 总结就是, keepalive是由client发送的, 至于是否timeout则由服务端来判断

watch

客户端可以在znodes上设置监听,ZooKeeper中所有的read操作:getData(),getChildren()和exists(),都提供了参数来设置watch。关于watch的定义:watch事件是一个一次性的触发器,当watch的Znode发生变更的时候,ZooKeeper会向客户端发送通知

watch三个特性:

  • 一次性触发, 当监听的Znode发生变化时,会向client发生一个watch event, 但是客户端注册的watch就失效了, 如果需要继续监听, 需要主动注册监听。例如:client调用getData(“/znode1”, true),之后/znode1发生了变化或者删除,client会收到一个watch event,但当/znode1再次发生变化时,client不会在收到watch event,除非client再次调用read操作来设置监听。

  • watch event发送的顺序性, 发送给client的watch event,在更改操作成功的返回代码到达发起更改的客户端之前,可能无法到达client。监听事件是异步发送给watcher。但ZK提供了顺序性保证:client不会发现其监听的znode发生变化直到它收到watch event。即client会先收到watch event,然后才会看到Znode的数据。Watch events的顺序和ZK集群中的对于更新的顺序是严格一致的。

  • 监听的分类, ZooKeeper中存在两种watches:data watches和child watches。getData() and exists() 接口会设置data watches。getChildren() 接口会设置child watches。之所以这么设计是因为,getData() and exists() 接口是用来返回Znode的data,而getChildren() 是返回Znode所有的children列表。setData() 会触发data watch,create() 会触发data watch和父节点的child watch,delete()也同样会触发data watch和父节点的child watch

  • Created event:exists

  • Deleted event: exists, getData, and getChildren

  • Changed event:exists, getData

  • Child event:getChildren

warning. 由于watch的一次性触发特性,在获取watch event和发送新的请求来再次进行znode的监听之间是有延迟的,所以这中间ZNode可能发生了多次变化,但client不会有watch event的通知.

羊群效应

注册监听, 来做分布式锁. 普通的方法是在 parent znode上注册监听, 当parent znode下的字节点发生变更, 就判断watcher者是否是最小的节点, 以此来做抢锁. 这个方法的问题在, 绝大多数情况下, watch到的事件都是无效的(自己并不是最小的). 这个在集群规模大的时候, 引发羊群效应(Herd Effect). 解决方案是使用exist, 只注册在比自己小一位的那个节点上, 只有这个节点发生变更才会有watch.

reference

ZooKeeper的基本介绍
zookeeper分布式锁避免羊群效应(Herd Effect)

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,752评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,100评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,244评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,099评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,210评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,307评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,346评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,133评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,546评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,849评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,019评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,702评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,331评论 3 319
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,030评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,260评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,871评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,898评论 2 351

推荐阅读更多精彩内容