ZooKeeper简介
Apache ZooKeeper是Apache软件基金会的一个软件项目,他为大型分布式计算提供开源的分布式配置服务、同步服务和命名注册。ZooKeeper曾经是Hadoop的一个子项目,但现在是一个独立的顶级项目。ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。
小结:
- 中间件,提供协调服务
- 作用于分布式系统,发挥其优势,可以为大数据服务
- 支持Java,提供Java和C语言的客户端API
ZooKeeper从字面意思上看就是动物园管理员,从Hadoop生态圈上,可以看到许多项目的logo都是动物,而且长得还很奇怪。而这些动物聚集在一起就是动物园了,每个动物都肯定不止一只。例如大象就肯定是一群的,就是Hadoop集群,其他动物也是如此。所以动物多了,也就需要动物园管理员来管理这些动物,差不多就是职业的铲屎官。ZooKeeper这个管理员就是给这些集群提供协调服务、命名注册以及配置文件的管理等。
ZooKeeper官网地址:
什么是分布式系统
什么是分布式系统?
- 很多台计算机组成一个整体,一个整体一致对外并且处理同一请求
- 内部的每台计算机都可以相互通信(rest/rpc)
- 客户端到服务端的一次请求到响应结束会经历多台计算机
例如像网盘这种软件就会采用分布式文件系统,分布式文件系统是由多台文件服务器组成的,一个文件可能会被拆分成多个数据块存储在不同的文件服务器上,以此来保证可靠性。图1:
当用户在进行一个下单操作时,可能这个请求会经过多个服务,这些服务各自运行在不同的机器上,也就是所谓的微服务架构。图2:
分布式系统的瓶颈以及ZooKeeper相关特性
分布式系统的瓶颈:
- 高并发
ZooKeeper的特性:
- 一致性:数据一致性,数据按照顺序分批入库
- 原子性:事务要么成功要么失败,不会局部化
- 单一视图:客户端连接集群中的任一zk节点,数据都是一致的
- 可靠性:每次对zk的操作状态都会保存在服务端
- 实时性:客户端可以读取到zk服务端的最新
zookeeper下载、安装以及配置环境变量
本节介绍单机的zookeeper安装,官方下载地址如下:
我这里使用的是3.4.11版本,所以找到相应的版本点击进去,复制到.tar.gz的下载链接到Linux上进行下载。命令如下:
[root@study-01 ~]# cd /usr/local/src/
[root@study-01 /usr/local/src]# wget https://archive.apache.org/dist/zookeeper/zookeeper-3.4.11/zookeeper-3.4.11.tar.gz
下载完成之后将其解压到/usr/local/目录下:
[root@study-01 /usr/local/src]# tar -zxvf zookeeper-3.4.11.tar.gz -C /usr/local/
[root@study-01 /usr/local/src]# cd ../zookeeper-3.4.11/
[root@study-01 /usr/local/zookeeper-3.4.11]# ls
bin dist-maven lib README_packaging.txt zookeeper-3.4.11.jar.asc
build.xml docs LICENSE.txt recipes zookeeper-3.4.11.jar.md5
conf ivysettings.xml NOTICE.txt src zookeeper-3.4.11.jar.sha1
contrib ivy.xml README.md zookeeper-3.4.11.jar
[root@study-01 /usr/local/zookeeper-3.4.11]#
安装完成之后,我们就可以配置环境变量了。如下:
[root@study-01 ~]# vim ./.bash_profile # 增加内容如下
export ZOOKEEPER_HOME=/usr/local/zookeeper-3.4.11/
export PATH=$PATH:$ZOOKEEPER_HOME/bin
[root@study-01 ~]# source ./.bash_profile
zookeeper文件夹主要目录介绍
- bin:存放主要的一些常用目录
- conf:存放配置文件,一会我们需要修改zoo.cfg配置文件
- contrib:附加的一些功能
- dist-maven:mvn编译后的目录
- docs:存放帮助文档文件
- lib:需要依赖的jar包
- recipes:官方提供的案例demo代码
- src:源码
zookeeper配置文件介绍,运行zk
进入conf目录,拷贝官方提供的模板配置文件,然后进行编辑:
[root@study-01 /usr/local/zookeeper-3.4.11]# cd conf/
[root@study-01 /usr/local/zookeeper-3.4.11/conf]# cp zoo_sample.cfg zoo.cfg
[root@study-01 /usr/local/zookeeper-3.4.11/conf]# vim zoo.cfg # 配置内容如下
tickTime=2000
initLimit=10
syncLimit=5
dataDir=/usr/local/zookeeper-3.4.11/dataDir
dataLogDir=/usr/local/zookeeper-3.4.11/dataLogDir
clientPort=2181
[root@study-01 /usr/local/zookeeper-3.4.11/conf]# cd ../
[root@study-01 /usr/local/zookeeper-3.4.11]# mkdir {dataDir,dataLogDir}
zoo.cfg配置:
- tickTime:用于计算的时间单元。比如session超时:N * tickTime
- initLimit:用于集群,允许从节点连接并同步到master节点的初始化连接时间,以tickTime的倍数来表示
- syncLimit:用于集群,master主节点与从节点之间发送消息,请求和应答时间长度(心跳包机制)
- dataDir:必须配置,数据文件所存放的目录
- dataLogDir:日志目录,如果不配置就和dataDir共用同一个目录
- clientPort:连接服务器的端口,默认为2181
以上我们就完成了单机的zookeeper安装与配置,接下来我们尝试启动一下zookeeper服务:
[root@study-01 ~]# zkServer.sh start # 启动zookeeper服务
ZooKeeper JMX enabled by default
Using config: /usr/local/zookeeper-3.4.11/bin/../conf/zoo.cfg
Starting zookeeper ... STARTED
[root@study-01 ~]# netstat -lntp | grep java # 检查端口是否有正常监听
tcp6 0 0 :::58056 :::* LISTEN 3057/java
tcp6 0 0 :::2181 :::* LISTEN 3057/java
[root@study-01 ~]# zkServer.sh status # 查看zookeeper服务状态
ZooKeeper JMX enabled by default
Using config: /usr/local/zookeeper-3.4.11/bin/../conf/zoo.cfg
Mode: standalone
[root@study-01 ~]# ps aux |grep java # 检查服务进程
root 3057 0.9 0.9 5230652 79840 pts/0 Sl 04:26 0:01 /usr/local/jdk1.8/bin/java -Dzookeeper.log.dir=. -Dzookeeper.root.logger=INFO,CONSOLE -cp /usr/local/zookeeper-3.4.11/bin/../build/classes:/usr/local/zookeeper-3.4.11/bin/../build/lib/*.jar:/usr/local/zookeeper-3.4.11/bin/../lib/slf4j-log4j12-1.6.1.jar:/usr/local/zookeeper-3.4.11/bin/../lib/slf4j-api-1.6.1.jar:/usr/local/zookeeper-3.4.11/bin/../lib/netty-3.10.5.Final.jar:/usr/local/zookeeper-3.4.11/bin/../lib/log4j-1.2.16.jar:/usr/local/zookeeper-3.4.11/bin/../lib/jline-0.9.94.jar:/usr/local/zookeeper-3.4.11/bin/../lib/audience-annotations-0.5.0.jar:/usr/local/zookeeper-3.4.11/bin/../zookeeper-3.4.11.jar:/usr/local/zookeeper-3.4.11/bin/../src/java/lib/*.jar:/usr/local/zookeeper-3.4.11/bin/../conf: -Dcom.sun.management.jmxremote -Dcom.sun.management.jmxremote.local.only=false org.apache.zookeeper.server.quorum.QuorumPeerMain /usr/local/zookeeper-3.4.11/bin/../conf/zoo.cfg
root 3146 0.0 0.0 112680 976 pts/0 S+ 04:29 0:00 grep --color=auto java
[root@study-01 ~]#
然后再关闭zookeeper服务:
[root@study-01 ~]# zkServer.sh stop
ZooKeeper JMX enabled by default
Using config: /usr/local/zookeeper-3.4.11/bin/../conf/zoo.cfg
Stopping zookeeper ... STOPPED
[root@study-01 ~]#
能够正常开/关后,就代表我们的zookeeper成功安装好了。
zk数据模型介绍
zookeeper基本数据模型:
-
基本数据模型是一个树形结构,类似于前端开发中的tree.js组件。或者像一个网站的目录结构:
image.png -
zk的数据模型也可以理解为linux/unix的文件目录,如:/usr/local/...。如下图:
image.png 每一个节点都称之为znode,它可以有子节点,也可以有数据
每个节点分为临时节点和永久节点,临时节点在客户端断开后就会消失
每个zk节点都有各自的版本号,可以通过命令行来显示节点信息
每当节点数据发生变化,那么该节点的版本号会累加(乐观锁)
删除/修改过时的节点,版本号不匹配则会报错
每个zk节点存储的数据不宜过大,几k即可
节点可以设置权限acl,可以通过权限来控制用户访问
zk客户端连接关闭服务端,查看znode
启动zk服务端:
[root@study-01 ~]# zkServer.sh start
ZooKeeper JMX enabled by default
Using config: /usr/local/zookeeper-3.4.11/bin/../conf/zoo.cfg
Starting zookeeper ... STARTED
[root@study-01 ~]#
启动zk客户端连接:
[root@study-01 ~]# zkCli.sh
查看可以使用哪些命令:
[zk: localhost:2181(CONNECTED) 0] help
ZooKeeper -server host:port cmd args
stat path [watch]
set path data [version]
ls path [watch]
delquota [-n|-b] path
ls2 path [watch]
setAcl path acl
setquota -n|-b val path
history
redo cmdno
printwatches on|off
delete path [version]
sync path
listquota path
rmr path
get path [watch]
create [-s] [-e] path data acl
addauth scheme auth
quit
getAcl path
close
connect host:port
[zk: localhost:2181(CONNECTED) 1]
查看znode,十分类似于在Linux下查看目录的操作:
[zk: localhost:2181(CONNECTED) 2] ls / # 根节点
[zookeeper]
[zk: localhost:2181(CONNECTED) 3] ls /zookeeper # 父节点
[quota]
[zk: localhost:2181(CONNECTED) 4] ls /zookeeper/quota # 子节点
[]
[zk: localhost:2181(CONNECTED) 5]
关闭zk客户端连接:
[zk: localhost:2181(CONNECTED) 5] quit # 退出
Quitting...
2018-04-21 17:48:35,534 [myid:] - INFO [main:ZooKeeper@687] - Session: 0x1000034ed8d0000 closed
2018-04-21 17:48:35,536 [myid:] - INFO [main-EventThread:ClientCnxn$EventThread@520] - EventThread shut down for session: 0x1000034ed8d0000
[root@study-01 ~]#
zookeeper的作用体现
master节点选举,主节点挂了以后,从节点就会接手工作,并且保证这个节点是唯一的,这也是所谓的首脑模式,从而保证我们的集群是高可用的。
统一配置文件管理,即只需要部署一台服务器,则可以把相同的配置文件同步更新到其他所有服务器,此操作在云计算中用的特别多(假设某一台机器修改了redis配置文件,就可以同步更新到其他机器上)
-
发布与订阅,类似消息队列MQ(amq,rmq...),dubbo发布者把数据存在znode上,订阅者会读取这个数据。
image.png -
提供分布式锁,分布式环境中也会有不同进程之间争夺资源,这时候就需要锁机制来保证数据的一致性,类似于多线程中的锁。例如下图中这种多个服务器访问同一个文件时,就需要分布式锁来让他们进行排队访问:
image.png -
集群管理,集群中保证数据的强一致性。能够让客户端访问集群中任意一个服务器时,访问到的数据都是一致的:
image.png