:zookeeper是为其它分布式程序提供:主从协调、服务器节点动态上下线、统一配置管理、分布式共享锁、统一名称 等服务的。同时zookeeper本身也是分布式程序的,只要半数以上节点存活,zookeeper就能正常服务。所以建议zookeeper搭建在奇数的机器上。
zookeeper特性
- Zookeeper集群由一个leader,多个follower组成。
- 全局数据一致:每个server保存一份相同的数据副本,client无论连接到哪个server,数据都是一致的
- 分布式读写,更新请求转发,由leader实施
- 更新请求顺序进行,来自同一个client的更新请求按其发送顺序依次执行
- 数据更新原子性,一次数据更新要么成功,要么失败
- 实时性,在一定时间范围内,client能读到最新数据
zookeeper原理及内部选举机制
在配置文件中zookeeper并没有指定master和slave,zookeeper启动后会通过内部的选举机制临时产生的。在一个zookeeper集群中,会选举出一个节点为leader,其余节点为follower。下面说下选举机制的两种情况:
1. 新启动的zookeeper集群(从未选举成功过)
新配置的zookeeper集群依次,它们都是最新启动的,也就是没有历史数据,在存放数据量这一点上都是一样的。一般这种情况下,ID大的的会被选举为Leader。
2. 非全新集群(数据恢复)
初始化的时候,是按照上述的说明进行选举的,但是当zookeeper运行了一段时间之后,有机器down掉,重新选举时,选举过程就相对复杂了。需要加入数据id、leader id和逻辑时钟。
- 数据id:数据新的id就大,数据每次更新都会更新id。
- Leader id:就是我们配置的myid中的值,每个机器一个。
- 逻辑时钟:这个值从0开始递增,每次选举对应一个值,也就是说: 如果在同一次选举中,那么这个值应该是一致的 ; 逻辑时钟值越大,说明这一次选举leader的进程更新.
选举的标准就变成:
- 逻辑时钟小的选举结果被忽略,重新投票
- 统一逻辑时钟后,数据id大的胜出
- 数据id相同的情况下,leader id大的胜出
根据这个规则选出leader。
搭建三台zookeeper集群
先准备好三台CentOS 7服务器,服务器安装Java1.8 +环境。
1. 安装Java 1.8
略。
2. 安装zookeeper
截止写这篇文档,zookeeper的稳定版 最新版本为:zookeeper-3.4.13。以下操作三台机器相同,不同处有标注。
# wget http://mirror.bit.edu.cn/apache/zookeeper/zookeeper-3.4.13/zookeeper-3.4.13.tar.gz
# tar -zxvf zookeeper-3.4.13.tar.gz -C /opt/
# ln -s /opt/zookeeper-3.4.13/ /opt/zookeeper
# vim /etc/profile.d/zookeeper.sh
export ZK_HOME=/opt/zookeeper
export PATH=$PATH:$ZK_HOME/bin
# source /etc/profile.d/zookeeper.sh
# rm /opt/zookeeper/bin/*.cmd
# cp /opt/zookeeper/conf/zoo_sample.cfg /opt/zookeeper/conf/zoo.cfg
# vim /opt/zookeeper/conf/zoo.cfg
dataDir=/opt/zookeeper/data
dataLogDir=/opt/zookeeper/logs
server.1=172.16.5.137:2888:3888
server.2=172.16.5.138:2888:3888
server.3=172.16.5.139:2888:3888
# mkdir -p /opt/zookeeper/{logs,data}
每台Server ID写入文件,三台不相同
# echo 3 > /opt/zookeeper/data/myid
# zkServer.sh status
ZooKeeper JMX enabled by default
Using config: /opt/zookeeper/bin/../conf/zoo.cfg
Mode: follower
配置文件说明:
- tickTime:这个时间是作为zookeeper服务器之间或客户端与服务器之间维持心跳的时间间隔,也就是说每个tickTime时间就会发送一个心跳。
- initLimit:这个配置项是用来配置zookeeper接受客户端(这里所说的客户端不是用户连接zookeeper服务器的客户端,而是zookeeper服务器集群中连接到leader的follower 服务器)初始化连接时最长能忍受多少个心跳时间间隔数。当已经超过10个心跳的时间(也就是tickTime)长度后 zookeeper 服务器还没有收到客户端的返回信息,那么表明这个客户端连接失败。总的时间长度就是 10*2000=20秒。
- syncLimit:这个配置项标识leader与follower之间发送消息,请求和应答时间长度,最长不能超过多少个tickTime的时间长度,总的时间长度就是5*2000=10秒。
- dataDir:顾名思义就是zookeeper保存数据的目录,默认情况下zookeeper将写数据的日志文件也保存在这个目录里;
- clientPort:这个端口就是客户端连接Zookeeper服务器的端口,Zookeeper会监听这个端口接受客户端的访问请求;
- server.A=B:C:D:中的A是一个数字,表示这个是第几号服务器,B是这个服务器的IP地址,C第一个端口用来集群成员的信息交换,表示这个服务器与集群中的leader服务器交换信息的端口,D是在leader挂掉时专门用来进行选举leader所用的端口。