zookeeper
1.1.zookeeper概述
zookeeper是一个分布式协调服务的开源框架。主要是用来解决分布式集群中应用系统的一致性问题,例如怎么避免同时操作同一数据造成脏读问题。
zookeeper本质上是一个分布式的小文件存储系统。提供基于类似文件系统的目录树方式的数据存储,并且可以对树中的节点进行有效管理,从而用来维护和监控你存储的数据的状态变化。通过监控这些数据状态的变化,从而可以达到基于数据的集群管理。例如:统一命名服务、分布式配置管理、分布式消息队列、分布式锁、分布式协调等功能。
1.2.zookeeper的文件系统
zookeeper维护一个类似文件系统的数据结构:
1.3.zookeeper特性
- 全局数据一致:每个server保存一份相同的数据副本,client无论连接到哪个server,展示的数据都是一致的,这是最重要的特性;
- 可靠性:如果消息被其中一台服务器接收,那么将被所有服务器接收(删除某一台的1.txt文件,那么所有服务器上的副本都会被删除);
- 顺序性:包括全局有序和偏序两种。全局有序指的是如果在一台服务器上消息a在消息b前发布,那么所有server上的消息a都将在消息b之前发布。偏序则指的是如果一个消息b在消息a后被同一个发送者发布,a必将排在b前面(消息可以理解为删除操作);
- 数据更新原子性:一次数据更新要么成功(半数以上算成功),要么失败,不存在中间状态;
- 实时性:zookeeper保证了客户端在同一时间间隔范围内获得服务器的更新信息,或者服务器失效的信息;
1.4.zookeeper集群角色
Leader:
- zookeeper集群工作的核心;
- 事务请求(写操作)的唯一调度和处理者,保证集群事务处理的顺序性;
- 对于create、setData、delete等有写操作的请求,则需要统一转发给Leader处理,Leader需要决定编号、执行操作,这个过程称为一个事务;
Follower:
- 处理客户端非事务(写操作)的请求,转发事务请求给Leader;
- 参与集群Leader选举投票;
此外,针对访问量大的zookeeper集群,还可以新添加观察者角色。
Observer:
- 观察者角色,观察zookeeper集群的最新状态变化并将这些状态同步过来,其对于非事务请求可以进行独立处理(和Follower功能一样),对于事务请求,则会转发给Leader服务器来处理;
- 不会参与任何形式的投票,只提供非事务服务,通常用于在不影响集群事务处理能力的前提下提升集群的非事务处理能力。
zookeeper集群搭建
zookeeper集群搭建的是zookeeper分布式模式安装。通常由2n+1台server组成。这是因为为了保证Leader选举(基于Paxos算法)能够得到多数的支持,所以zookeeper集群数量一般为奇数。
zookeeper运行需要Java环境,所以需要提前安装JDK。对于安装Leader+Follower的集群,大致过程如下:
- 配置主机名称到IP地址的映射关系;
- 修改zookeeper配置文件;
- 远程复制分发安装文件;
- 设置myid;
- 启动zookeeper集群;
如果想要使用Observer模式,可在对应节点的配置文件添加如下配置:
peerType=observer
其次,必须在配置文件指定哪些节点被指定为Observer,如:
server.1:localhost:2181:3181:observer
安装过程
wget http://mirror.bit.edu.cn/apache/zookeeper/stable/apache-zookeeper-3.4.5.tar.gz
tar -zxvf zookeeper-3.4.5.tar.gz
mv zookeeper-3.4.5 zookeeper
## 修改配置文件
cd zookeeper/conf
cp zoo_sample.cfg zoo.cfg
vim zoo.cfg 添加内容
dataDir=/root/apps/zookeeper/zkdata
server.1=mini1:2888:3888 ## (心跳端口、选举端口)
server.2=mini2:2888:3888
server.3=mini3:2888:3888
## 创建文件夹:
cd /home/hadoop/zookeeper/
mkdir zkdata
## 在data文件夹下新建myid文件,myid的文件内容为:
cd zkdata
echo 1 > myid
## 分发安装包到其他机器
scp -r /root/apps root@mini2:/root/
scp -r /root/apps root@mini3:/root/
## 修改其他机器的配置文件
## 修改myid文件
到mini2上:修改myid为:2
到mini3上:修改myid为:3
##启动(每台机器)
zkServer.sh start
或者编写一个脚本来批量启动所有机器:
for host in "mini1 mini2 mini3"
do
ssh $host "source/etc/profile;/root/apps/zookeeper/bin/zkServer.sh start"
done
##查看集群状态
jps(查看进程)
zkServer.sh status(查看集群状态,主从信息)
如果启动不成功,可以观察zookeeper.out日志,查看错误信息进行排查
配置文件参数说明:
-
tickTime
:这个时间作为zookeeper服务器之间或客户端与服务器之间维持心跳的时间间隔,也就是说每个tickTime
时间就会发送一个心跳; -
initLimit
:这个配置项是用来配置zookeeper接收客户端(这里所说的客户端不是用户连接zookeeper服务器集群中连接到Leader的Follower服务器)初始化连接时最长能忍受多少个心跳时间间隔数。当已经超过10个心跳的时间(也就是tickTime)长度后zookeeper服务器还没有收到客户端的返回信息,那么表明这个客户端连接失败。总的时间长度就是10*2000=20s; -
syncLimit
:这个配置项标识Leader和Follower之间发送消息,请求和应答时间长度,最长不能超过多少个tickTime的时间长度,总的时间长度就是5*2000=10秒; -
dataDir
:就是zookeeper保存数据的目录,默认情况下zookeeper将写数据的日志文件也保存在这个目录里; -
clientPort
:这个端口就是客户端连接zookeeper服务器的端口,zookeeper会监听客户端的访问请求; -
server.A=B:C:D
:A是一个数字,表示这是第几台服务器,B是这个服务器的IP地址或主机名,C是用来集群成员的信息交换,表示这个服务器在集群中的Leader服务器交换信息的端口,D代表在Leader挂掉时,专门用来进行选举Leader所用的端口;
3.zookeeper数据模型
zookeeper的数据模型,在结构上和标准文件系统的非常相似。拥有一个层次命名空间,都是采用树形结构,zookeeper树中的每个节点被称为Znode。和文件系统的目录树一样,zookeeper树中的每个节点都可以拥有子节点,但也有不同之处:
- Znode兼具文件和目录两种特点。既像文件一样维护者数据、元信息、ACL、时间戳等数据结构,并可以具有子Znode。用户对Znode具有增删改查等操作(权限允许的情况下);
- Znode具有原子性操作。读操作将获取与节点相关的所有数据,写操作也将替换掉节点的所有数据,另外每一个节点都拥有自己的ACL(访问控制权限列表),这个列表规定了用户的权限,即限定了特定用户对目标节点可以执行的操作;
- Znode节点存储数据大小有限制。zookeeper虽然可以关联一些数据,但并没有被设计为常规的数据库或大数据存储,相反的是,它用来管理调度数据,比如分布式应用中的配置文件信息、状态信息、汇集信息等等,这些数据的共同特征就是他们都是很小的数据,通常是以kb为大小单位。zookeeper的服务器和客户端都设计为严格检查并限制每个Znode的数据大小最大为1M,但在常规使用中应该远小于此值;
-
Znode通过路径引用。如同unix的文件路径,路径必须是绝对的,因此他们必须是由斜杠开头,除此之外,他们必须是唯一的,也就是说每一个路径只有一个表示,并且有一些限制,字符串
/zookeeper
用以保存管理信息,比如关键配额信息;
3.1.数据结构图
未完待续......