CentOS7下安装ZooKeeper

ZooKeeper简介

Apache ZooKeeper是Apache软件基金会的一个软件项目，他为大型分布式计算提供开源的分布式配置服务、同步服务和命名注册。ZooKeeper曾经是Hadoop的一个子项目，但现在是一个独立的顶级项目。ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等。

小结：

中间件，提供协调服务
作用于分布式系统，发挥其优势，可以为大数据服务
支持Java，提供Java和C语言的客户端API

ZooKeeper从字面意思上看就是动物园管理员，从Hadoop生态圈上，可以看到许多项目的logo都是动物，而且长得还很奇怪。而这些动物聚集在一起就是动物园了，每个动物都肯定不止一只。例如大象就肯定是一群的，就是Hadoop集群，其他动物也是如此。所以动物多了，也就需要动物园管理员来管理这些动物，差不多就是职业的铲屎官。ZooKeeper这个管理员就是给这些集群提供协调服务、命名注册以及配置文件的管理等。

image.png

ZooKeeper官网地址：

https://zookeeper.apache.org/

什么是分布式系统

什么是分布式系统？

很多台计算机组成一个整体，一个整体一致对外并且处理同一请求
内部的每台计算机都可以相互通信（rest/rpc）
客户端到服务端的一次请求到响应结束会经历多台计算机

例如像网盘这种软件就会采用分布式文件系统，分布式文件系统是由多台文件服务器组成的，一个文件可能会被拆分成多个数据块存储在不同的文件服务器上，以此来保证可靠性。图1：

image.png

当用户在进行一个下单操作时，可能这个请求会经过多个服务，这些服务各自运行在不同的机器上，也就是所谓的微服务架构。图2：

image.png

分布式系统的瓶颈以及ZooKeeper相关特性

分布式系统的瓶颈：

高并发

ZooKeeper的特性：

一致性：数据一致性，数据按照顺序分批入库
原子性：事务要么成功要么失败，不会局部化
单一视图：客户端连接集群中的任一zk节点，数据都是一致的
可靠性：每次对zk的操作状态都会保存在服务端
实时性：客户端可以读取到zk服务端的最新

zookeeper下载、安装以及配置环境变量

本节介绍单机的zookeeper安装，官方下载地址如下：

https://archive.apache.org/dist/zookeeper/

我这里使用的是3.4.11版本，所以找到相应的版本点击进去，复制到.tar.gz的下载链接到Linux上进行下载。命令如下：

[root@study-01 ~]# cd /usr/local/src/
[root@study-01 /usr/local/src]# wget https://archive.apache.org/dist/zookeeper/zookeeper-3.4.11/zookeeper-3.4.11.tar.gz

下载完成之后将其解压到/usr/local/目录下：

[root@study-01 /usr/local/src]# tar -zxvf zookeeper-3.4.11.tar.gz -C /usr/local/
[root@study-01 /usr/local/src]# cd ../zookeeper-3.4.11/
[root@study-01 /usr/local/zookeeper-3.4.11]# ls
bin        dist-maven       lib          README_packaging.txt  zookeeper-3.4.11.jar.asc
build.xml  docs             LICENSE.txt  recipes               zookeeper-3.4.11.jar.md5
conf       ivysettings.xml  NOTICE.txt   src                   zookeeper-3.4.11.jar.sha1
contrib    ivy.xml          README.md    zookeeper-3.4.11.jar
[root@study-01 /usr/local/zookeeper-3.4.11]#

安装完成之后，我们就可以配置环境变量了。如下：

[root@study-01 ~]# vim ./.bash_profile  # 增加内容如下
export ZOOKEEPER_HOME=/usr/local/zookeeper-3.4.11/
export PATH=$PATH:$ZOOKEEPER_HOME/bin
[root@study-01 ~]# source ./.bash_profile

zookeeper文件夹主要目录介绍

bin：存放主要的一些常用目录
conf：存放配置文件，一会我们需要修改zoo.cfg配置文件
contrib：附加的一些功能
dist-maven：mvn编译后的目录
docs：存放帮助文档文件
lib：需要依赖的jar包
recipes：官方提供的案例demo代码
src：源码

zookeeper配置文件介绍，运行zk

进入conf目录，拷贝官方提供的模板配置文件，然后进行编辑：

[root@study-01 /usr/local/zookeeper-3.4.11]# cd conf/
[root@study-01 /usr/local/zookeeper-3.4.11/conf]# cp zoo_sample.cfg zoo.cfg
[root@study-01 /usr/local/zookeeper-3.4.11/conf]# vim zoo.cfg  # 配置内容如下
tickTime=2000
initLimit=10
syncLimit=5
dataDir=/usr/local/zookeeper-3.4.11/dataDir
dataLogDir=/usr/local/zookeeper-3.4.11/dataLogDir
clientPort=2181
[root@study-01 /usr/local/zookeeper-3.4.11/conf]# cd ../
[root@study-01 /usr/local/zookeeper-3.4.11]# mkdir {dataDir,dataLogDir}

zoo.cfg配置：

tickTime：用于计算的时间单元。比如session超时：N * tickTime
initLimit：用于集群，允许从节点连接并同步到master节点的初始化连接时间，以tickTime的倍数来表示
syncLimit：用于集群，master主节点与从节点之间发送消息，请求和应答时间长度（心跳包机制）
dataDir：必须配置，数据文件所存放的目录
dataLogDir：日志目录，如果不配置就和dataDir共用同一个目录
clientPort：连接服务器的端口，默认为2181

以上我们就完成了单机的zookeeper安装与配置，接下来我们尝试启动一下zookeeper服务：

[root@study-01 ~]# zkServer.sh start  # 启动zookeeper服务
ZooKeeper JMX enabled by default
Using config: /usr/local/zookeeper-3.4.11/bin/../conf/zoo.cfg
Starting zookeeper ... STARTED
[root@study-01 ~]# netstat -lntp | grep java  # 检查端口是否有正常监听
tcp6       0      0 :::58056                :::*                    LISTEN      3057/java           
tcp6       0      0 :::2181                 :::*                    LISTEN      3057/java           
[root@study-01 ~]# zkServer.sh status  # 查看zookeeper服务状态
ZooKeeper JMX enabled by default
Using config: /usr/local/zookeeper-3.4.11/bin/../conf/zoo.cfg
Mode: standalone
[root@study-01 ~]# ps aux |grep java  # 检查服务进程
root       3057  0.9  0.9 5230652 79840 pts/0   Sl   04:26   0:01 /usr/local/jdk1.8/bin/java -Dzookeeper.log.dir=. -Dzookeeper.root.logger=INFO,CONSOLE -cp /usr/local/zookeeper-3.4.11/bin/../build/classes:/usr/local/zookeeper-3.4.11/bin/../build/lib/*.jar:/usr/local/zookeeper-3.4.11/bin/../lib/slf4j-log4j12-1.6.1.jar:/usr/local/zookeeper-3.4.11/bin/../lib/slf4j-api-1.6.1.jar:/usr/local/zookeeper-3.4.11/bin/../lib/netty-3.10.5.Final.jar:/usr/local/zookeeper-3.4.11/bin/../lib/log4j-1.2.16.jar:/usr/local/zookeeper-3.4.11/bin/../lib/jline-0.9.94.jar:/usr/local/zookeeper-3.4.11/bin/../lib/audience-annotations-0.5.0.jar:/usr/local/zookeeper-3.4.11/bin/../zookeeper-3.4.11.jar:/usr/local/zookeeper-3.4.11/bin/../src/java/lib/*.jar:/usr/local/zookeeper-3.4.11/bin/../conf: -Dcom.sun.management.jmxremote -Dcom.sun.management.jmxremote.local.only=false org.apache.zookeeper.server.quorum.QuorumPeerMain /usr/local/zookeeper-3.4.11/bin/../conf/zoo.cfg
root       3146  0.0  0.0 112680   976 pts/0    S+   04:29   0:00 grep --color=auto java
[root@study-01 ~]#

然后再关闭zookeeper服务：

[root@study-01 ~]# zkServer.sh stop
ZooKeeper JMX enabled by default
Using config: /usr/local/zookeeper-3.4.11/bin/../conf/zoo.cfg
Stopping zookeeper ... STOPPED
[root@study-01 ~]#

能够正常开/关后，就代表我们的zookeeper成功安装好了。

zk数据模型介绍

zookeeper基本数据模型：

基本数据模型是一个树形结构，类似于前端开发中的tree.js组件。或者像一个网站的目录结构：

image.png
zk的数据模型也可以理解为linux/unix的文件目录，如：/usr/local/...。如下图：

image.png
每一个节点都称之为znode，它可以有子节点，也可以有数据
每个节点分为临时节点和永久节点，临时节点在客户端断开后就会消失
每个zk节点都有各自的版本号，可以通过命令行来显示节点信息
每当节点数据发生变化，那么该节点的版本号会累加（乐观锁）
删除/修改过时的节点，版本号不匹配则会报错
每个zk节点存储的数据不宜过大，几k即可
节点可以设置权限acl，可以通过权限来控制用户访问

zk客户端连接关闭服务端，查看znode

启动zk服务端：

[root@study-01 ~]# zkServer.sh start
ZooKeeper JMX enabled by default
Using config: /usr/local/zookeeper-3.4.11/bin/../conf/zoo.cfg
Starting zookeeper ... STARTED
[root@study-01 ~]#

启动zk客户端连接：

[root@study-01 ~]# zkCli.sh

查看可以使用哪些命令：

[zk: localhost:2181(CONNECTED) 0] help
ZooKeeper -server host:port cmd args
    stat path [watch]
    set path data [version]
    ls path [watch]
    delquota [-n|-b] path
    ls2 path [watch]
    setAcl path acl
    setquota -n|-b val path
    history 
    redo cmdno
    printwatches on|off
    delete path [version]
    sync path
    listquota path
    rmr path
    get path [watch]
    create [-s] [-e] path data acl
    addauth scheme auth
    quit 
    getAcl path
    close 
    connect host:port
[zk: localhost:2181(CONNECTED) 1]

查看znode，十分类似于在Linux下查看目录的操作：

[zk: localhost:2181(CONNECTED) 2] ls /  # 根节点
[zookeeper]
[zk: localhost:2181(CONNECTED) 3] ls /zookeeper  # 父节点
[quota]
[zk: localhost:2181(CONNECTED) 4] ls /zookeeper/quota  # 子节点
[]
[zk: localhost:2181(CONNECTED) 5]

关闭zk客户端连接：

[zk: localhost:2181(CONNECTED) 5] quit  # 退出
Quitting...
2018-04-21 17:48:35,534 [myid:] - INFO  [main:ZooKeeper@687] - Session: 0x1000034ed8d0000 closed
2018-04-21 17:48:35,536 [myid:] - INFO  [main-EventThread:ClientCnxn$EventThread@520] - EventThread shut down for session: 0x1000034ed8d0000
[root@study-01 ~]#

zookeeper的作用体现

master节点选举，主节点挂了以后，从节点就会接手工作，并且保证这个节点是唯一的，这也是所谓的首脑模式，从而保证我们的集群是高可用的。
统一配置文件管理，即只需要部署一台服务器，则可以把相同的配置文件同步更新到其他所有服务器，此操作在云计算中用的特别多（假设某一台机器修改了redis配置文件，就可以同步更新到其他机器上）
发布与订阅，类似消息队列MQ（amq，rmq...），dubbo发布者把数据存在znode上，订阅者会读取这个数据。

image.png
提供分布式锁，分布式环境中也会有不同进程之间争夺资源，这时候就需要锁机制来保证数据的一致性，类似于多线程中的锁。例如下图中这种多个服务器访问同一个文件时，就需要分布式锁来让他们进行排队访问：

image.png
集群管理，集群中保证数据的强一致性。能够让客户端访问集群中任意一个服务器时，访问到的数据都是一致的：

image.png