ZooKeeper 简介

ZooKeeper: 分布式应用的分布式协调服务

ZooKeeper 是一个用于分布式应用的分布式、开源的协调服务。它开放了一套简单的函数,分布式应用可以在此之上为上层服务实现分布式同步、配置维护、组服务、命名等功能。它使用了一个类似于目录树结构的文件系统作为数据模型,易于编程。它运行在java上,而且已经有了Java和C的客户端。

众所周知,协调服务是很难正确实现的。它们很容易出现条件竞争和死锁等错误。ZooKeeper 出现的目的就是解除为分布式应用实现协调服务的痛点。

设计目标

ZooKeeper is simple. ZooKeeper 允许分布式的进程通过共享命名空间层次来相互协调,共享命名空间层次有点类似于标准的文件系统。命名空间由数据寄存器组成,ZooKeeper 中的说法是 znodes,类似于文件和目录。与典型的文件系统不同,其被设计用于存储,ZooKeeper 数据存放在内存中。也就是说ZooKeeper 可以实现高吞吐量和低延迟数。
ZooKeeper 完美的实现了高性能、高可用、严格有序的访问。性能方面,ZooKeeper 可以用在大规模、分布式的系统中。可靠性方面,解决了单点障碍。严格有序意味着可以从客户端实现复杂的同步函数。
ZooKeeper is replicated. 类似于分布式进程协调,ZooKeeper 自身可被复制副本到一组主机上作为一个整体。

ZooKeeper Service
ZooKeeper Service

ZooKeeper 服务的服务端相互知道彼此的存在。他们维护了一个内存镜像的状态,连同事务日志和快照集一起持久化存储。只要大多数服务器可用,那么ZooKeeper 服务将是可用的。

客户端连接一个单独的 ZooKeeper 服务端。客户端维护了一个TCP 的连接,通过它来发送请求、获取响应、获取watch事件以及发送心跳。如果与服务端的连接断了,客户端将会连到其他的服务端。

ZooKeeper is ordered. ZooKeeper 为每个更新标记了序号,它反应了ZooKeeper 事务的顺序。并发操作可以用这个序号来实现更高层次的抽象,例如同步服务。

ZooKeeper is fast. 它在以读为主的场景下非常快。ZooKeeper 应用运行在数千台机器上,在读写比为 10:1 的时候表现最佳。

数据模型与分层命名空间

ZooKeeper 提供的命名空间非常像标准的文件系统。名字是路径元素通过斜杠(/)分割的序列。 ZooKeeper 命名空间中的每个节点都是一个唯一的路径。

ZooKeeper 的层级命名空间
节点以及临时节点

与标准的文件系统不同,ZooKeeper 命名空间中的每个节点都存有与子节点相关的数据。它就像一个文件系统允许文件变成一个目录。(ZooKeeper 为存储协调数据而设计:状态信息、配置信息、路径信息等,因此每个节点存储的数据通常都很小,量级在B到KB之间。)我们用术语znode 来指ZooKeeper 数据节点。

Znodes 的数据结构中包括:数据变更的版本号、ACL 变更以及时间戳,以便缓存验证和协调更新。每次znode数据改变,版本号递增。例如,每当客户端收到数据,它将同时收到数据的版本。

命名空间中znode存储的数据是被原子性读写的。读操作可以获得Znode相关的全部数据,写操作将覆盖全部数据。每个及诶单有一个权限控制列表( Access Control List ,ACL)来限制什么人可以干什么事。

ZooKeeper 也有临时节点的概念. 这些节点存在时间与会话一致,会话创建时znode生效。当会话结束时Znode被删除。临时节点对你实现功能非常有用,请参考[tbd]

Conditional updates and watches

ZooKeeper 支持watches 的概念. 客户端可以在Znodes上设一个watch 。znode 改变时会触发或删除watch。当watch 被触发时,客户端会收到一个说“znode已被改变”的包。并且,如果客户端和一个Zookeeper服务器之间的连接中断时,客户端会收到一个本地通知。对于如何使用,请参考[tbd]

保障

ZooKeeper 非常简单、迅速,这源自于它的设计目标。因此它为构建更复杂的服务提供了基础。例如为同步服务提供了一套保障:

  • Sequential Consistency(顺序一致性) - 按照客户端的发送顺序进行更新。
  • Atomicity(原子性)- 更新或成功或失败。不会有中间态的部分结果。
  • Single System Image(单一系统镜像) - 无论客户端或服务器,连接到服务端后都能看到同样的视图。
  • Reliability(可靠性) - 一旦应用一个更新,它将留存到客户端覆盖本次更新为止。
  • Timeliness(时效性) - 在一段时间内保证系统的客户端视图是最新的。

更多信息以及他们怎么使用,请看[tbd]

Simple API

ZooKeeper 其中一个设计目标是提供一个非常简单的编程接口。最终,它只支持这些操作:
_ create _ :在树的某个位置创建一个节点
_ delete _ :删除一个节点
_ exists _ :测试某个位置的节点是否存在
_ get data _ :从节点中获取数据
_ set data _ :将数据写入节点中
_ get children _ :获取子节点的列表
_ sync _ :等待数据同步

对于更深入的探讨,以及他们怎样用于高级的操作,请参阅[tbd]

实现

ZooKeeper 组件 展示了ZooKeeper 服务的高级组件。除请求处理器以外,构成ZooKeeper 服务的每个服务端的副本集都拷贝自它的每个组件。

ZooKeeper 组件

副本数据库是一个内存数据库,包含了整个数据树。更新日志序列化后记录在磁盘上,用来恢复数据。

每个Zookeeper服务器服务的客户端。客户端准确的连接到一个服务端后提交请求。读请求从每个服务器数据库的本地副本中响应。服务状态变更请求、写请求按照约定的协议执行。

协议的一部分,客户端的全部写请求被转到叫领导者(leader)的一个独立的服务端。其余的Zookeeper服务端,称为从服务(followers) ,从领导者(leader)那边接收消息并确认消息已收到。消息层负责在领导者发生故障时更换领导者并同步数据到从服务。

ZooKeeper 采用了一个自定义的原子消息协议。由于消息层是原子的,Zookeeper 可以保证本地副本没有偏差。当领导者收到一个写请求时,它会计算出系统何时做了写操作,并在事务中更新最新状态。

使用

ZooKeeper 的程序接口刻意简单化。With it, however, you can implement higher order operations, 通过它,你可以实现高层次的操作,例如同步服务,组成员,权限等。一些分布式应用用它: [tbd: 白皮书和视频演示中新增用途] 更多信息请看:[tbd]

性能

ZooKeeper 为高性能而设计。但它到底怎样呢?ZooKeeper 开发团队在Yahoo! 研究表明它非常优秀。(参见ZooKeeper 不同读写比例下的吞吐量)它在读大于写时,性能表现更佳,因为写操作会涉及所有服务端的状态同步。(读大于写是协调服务中典型的案例)

ZooKeeper 不同读写比例下的吞吐量

ZooKeeper 不同读写比例下的吞吐量 是一个ZooKeeper 3.2版本运行在双核 2Ghz Xeon + 2 SATA 15K RPM磁盘的服务器上的吞吐量曲线。一个磁盘专门用于存储Zookeeper日志。快照被写在系统磁盘上。共1000次 读/写请。 "Servers" 指的是一些Zookeeper 集群,这些 "Servers" 构成了Zookeeper服务。另外大约用30台机器来模拟客户端。ZooKeeper 集群的领导者(Leader)被配置为不接受客户端的连接。

在 3.2 版中 读/写 性能比 3.1之前的版本提升2倍以上。

基准也表明它也是可靠的。出错时的可靠性 显示了怎样部署一个应对各种故障的响应服务。图中标记的事件如下:

  1. 从服务(follower)发生故障并恢复
  2. 其他从服务(follower)发生故障并恢复
  3. 领导者(leader)发生故障;
  4. 两个从服务(follower)发生故障并恢复
  5. 其他领导者(leader)发生故障
可靠性

我们运行一个由7台机器组成的Zookeeper服务,来展示系统故障时的表现。我们运行了与之前相同饱和度的服务,但这次我们将写操作比例保持在30%,30%是我们预期工作负载的保守比例。

出错时的可靠性

这幅图可以观察出一些问题。首先,如果从服务(followers)失败并快速恢复,经管有失败但Zookeeper 任然可以提供高吞吐量的服务。但更重要的是,领导者选举算法(leader election algorithm)可以使系统快速恢复,足以防止吞吐量大幅下降。我们的观察中,ZooKeeper 以低于200ms 的速度选出了领导者(leader)。第三,从服务(followers )恢复后,ZooKeeper 由于从服务(followers)恢复,它们开始处理请求,又能提高吞吐量。

ZooKeeper 项目

ZooKeeper 已被 成功的用于 许多行业应用中。 在 Yahoo! 作为 Yahoo! Message Broker 的协调和故障恢复服务。Yahoo! Message Broker是一个高可扩展性的订阅发布系统。ZooKeeper 管理着成千上万个Topics 的副本和数据交付。它为Yahoo! 爬虫提供Fetching 服务和故障恢复。一些 Yahoo! 的广告系统也在用 ZooKeeper 来实现的服务可靠性。
鼓励所有用户和开发者加入社区并贡献专业知识。更多信息请看 Apache 基金会 Zookeeper项目


原文地址:https://zookeeper.apache.org/doc/trunk/zookeeperOver.htm

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,752评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,100评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,244评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,099评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,210评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,307评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,346评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,133评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,546评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,849评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,019评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,702评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,331评论 3 319
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,030评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,260评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,871评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,898评论 2 351

推荐阅读更多精彩内容

  • 原文链接 ZooKeeper:分布式应用的分布式协调服务 ZooKeeper是分布式应用的开源协调服务。它公开了一...
    狼牙战士阅读 716评论 0 1
  • 一、ZooKeeper的背景 1.1 认识ZooKeeper ZooKeeper---译名为“动物园管理员”。动物...
    algernoon阅读 9,060评论 1 106
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,644评论 18 139
  • 里面有关于植物、动物、科学、文化、生活。可以解绝你的各种问题! 欢迎大家观看!
    62b61467e014阅读 597评论 0 1
  • 从开解别人谈起,玩塔罗牌的时候,总想着去帮别人解决情感问题,可是事实并不是如此。可能是因为旁观者清吧,明明是看着实...
    emma佳小佳阅读 145评论 0 0