swarm简介
Swarm是Docker公司在2014年12月初发布的一套较为简单的工具,用来管理Docker集群,它将一群Docker宿主机变成一个单一的,虚拟的主机。Swarm使用标准的Docker API接口作为其前端访问入口,换言之,各种形式的Docker Client(docker client in Go, docker_py, docker等)均可以直接与Swarm通信。Swarm几乎全部用Go语言来完成开发,Swarm0.2版本增加了一个新的策略来调度集群中的容器,使得在可用的节点上传播它们,以及支持更多的Docker命令以及集群驱动。Swarm deamon只是一个调度器(Scheduler)加路由器(router),Swarm自己不运行容器,它只是接受docker客户端发送过来的请求,调度适合的节点来运行容器,这意味着,即使Swarm由于某些原因挂掉了,集群中的节点也会照常运行,当Swarm重新恢复运行之后,它会收集重建集群信息。
Docker的Swarm(集群)模式,集成很多工具和特性,比如:跨主机上快速部署服务,服务的快速扩展,集群的管理整合到docker引擎,这意味着可以不可以不使用第三方管理工具。分散设计,声明式的服务模型,可扩展,状态协调处理,多主机网络,分布式的服务发现,负载均衡,滚动更新,安全(通信的加密)等等,下面就来认识下Swarm(对于Swarm管理的详细操作可以参考:https://www.centos.bz/tag/swarm/page/3/)
Swarm架构
Swarm作为一个管理Docker集群的工具,首先需要将其部署起来,可以单独将Swarm部署于一个节点。另外,自然需要一个Docker集群,集群上每一个节点均安装有Docker。具体的Swarm架构图可以参照下图:
Swarm架构中最主要的处理部分自然是Swarm节点,Swarm管理的对象自然是Docker Cluster,Docker Cluster由多个Docker Node组成,而负责给Swarm发送请求的是Docker Client。
Swarm关键概念
Swarm
集群的管理和编排是使用嵌入到docker引擎的SwarmKit,可以在docker初始化时启动swarm模式或者加入已存在的swarmNode
一个节点(node)是已加入到swarm的Docker引擎的实例 当部署应用到集群,你将会提交服务定义到管理节点,接着Manager管理节点调度任务到worker节点,manager节点还执行维护集群的状态的编排和群集管理功能,worker节点接收并执行来自manager节点的任务。通常,manager节点也可以是worker节点,worker节点会报告当前状态给manager节点服务(Service)
服务是要在worker节点上要执行任务的定义,它在工作者节点上执行,当你创建服务的时,你需要指定容器镜像任务(Task)
任务是在docekr容器中执行的命令,Manager节点根据指定数量的任务副本分配任务给worker节点
- docker swarm:集群管理,子命令有
init, join, leave, update
。(docker swarm --help
查看帮助) - docker service:服务创建,子命令有
create, inspect, update, remove, tasks
。(docker service--help
查看帮助) - docker node:节点管理,子命令有
accept, promote, demote, inspect, update, tasks, ls, rm
。(docker node --help
查看帮助)
node是加入到swarm集群中的一个docker引擎实体,可以在一台物理机上运行多个node,node分为:
manager nodes,也就是管理节点
worker nodes,也就是工作节点
- manager node管理节点:执行集群的管理功能,维护集群的状态,选举一个leader节点去执行调度任务。
- worker node工作节点:接收和执行任务。参与容器集群负载调度,仅用于承载task。
- service服务:一个服务是工作节点上执行任务的定义。创建一个服务,指定了容器所使用的镜像和容器运行的命令。service是运行在worker nodes上的task的描述,service的描述包括使用哪个docker 镜像,以及在使用该镜像的容器中执行什么命令。
- task任务:一个任务包含了一个容器及其运行的命令。task是service的执行实体,task启动docker容器并在容器中执行任务。
Swarm工作方式
-
Node
-
Service(服务, 任务, 容器)
-
任务与调度
-
服务副本与全局服务
Swarm调度策略
Swarm在scheduler节点(leader节点)运行容器的时候,会根据指定的策略来计算最适合运行容器的节点,目前支持的策略有:spread, binpack, random.
1)Random
顾名思义,就是随机选择一个Node来运行容器,一般用作调试用,spread和binpack策略会根据各个节点的可用的CPU, RAM以及正在运行的容器的数量来计算应该运行容器的节点。
2)Spread
在同等条件下,Spread策略会选择运行容器最少的那台节点来运行新的容器,binpack策略会选择运行容器最集中的那台机器来运行新的节点。使用Spread策略会使得容器会均衡的分布在集群中的各个节点上运行,一旦一个节点挂掉了只会损失少部分的容器。
3)Binpack
Binpack策略最大化的避免容器碎片化,就是说binpack策略尽可能的把还未使用的节点留给需要更大空间的容器运行,尽可能的把容器运行在一个节点上面。
Swarm Cluster模式的特性
1)批量创建服务
建立容器之前先创建一个overlay的网络,用来保证在不同主机上的容器网络互通的网络模式
2)强大的集群的容错性
当容器副本中的其中某一个或某几个节点宕机后,cluster会根据自己的服务注册发现机制,以及之前设定 的值--replicas n,在集群中剩余的空闲节点上,重新拉起容器副本。整个副本迁移的过程无需人工干预,迁移后原本的集群的load balance依旧好使!不难看出,docker service其实不仅仅是批量启动服务这么简单,而是在集群中定义了一种状态。Cluster会持续检测服务的健康状态并维护集群的高可用性。
3)服务节点的可扩展性
Swarm Cluster不光只是提供了优秀的高可用性,同时也提供了节点弹性扩展或缩减的功能。当容器组想动态扩展时,只需通过scale参数即可复制出新的副本出来。
仔细观察的话,可以发现所有扩展出来的容器副本都run在原先的节点下面,如果有需求想在每台节点上都run一个相同的副本,方法其实很简单,只需要在命令中将"--replicas n"更换成"--mode=global"即可!
复制服务(--replicas n)
将一系列复制任务分发至各节点当中,具体取决于您所需要的设置状态,例如“--replicas 3”。
全局服务(--mode=global)
适用于集群内全部可用节点上的服务任务,例如“--mode global”。如果大家在 Swarm 集群中设有 7 台 Docker 节点,则全部节点之上都将存在对应容器。
4)调度机制
所谓的调度其主要功能是cluster的server端去选择在哪个服务器节点上创建并启动一个容器实例的动作。它是由一个装箱算法和过滤器组合而成。每次通过过滤器(constraint)启动容器的时候,swarm cluster 都会调用调度机制筛选出匹配约束条件的服务器,并在这上面运行容器。
------------------Swarm cluster的创建过程包含以下三个步骤----------------------
1)发现Docker集群中的各个节点,收集节点状态、角色信息,并监视节点状态的变化
2)初始化内部调度(scheduler)模块
3)创建并启动API监听服务模块
一旦创建好这个cluster,就可以用命令docker service批量对集群内的容器进行操作,非常方便!
在启动容器后,docker 会根据当前每个swarm节点的负载判断,在负载最优的节点运行这个task任务,用"docker service ls" 和"docker service ps + taskID"可以看到任务运行在哪个节点上。容器启动后,有时需要等待一段时间才能完成容器创建。
swarm部署实例
环境准备
操作系统:centos7.2
docker版本:1.12.6
manager-node的ip:192.168.175.219
node1的ip:192.168.175.220
node2的ip:192.168.175.221
- 修改hostname
- 在manager-node上:
[root@manager-node ~]# hostnamectl --static set-hostname manager-node
- 在node1上:
[root@node1 ~]# hostnamectl --static set-hostname node1
- 在manager-node上:
- 在三机器上都要设置hosts,均执行如下命令:
vi /etc/hosts
[root@manager-node ~]# vim /etc/hosts
......
192.168.175.219 manager-node
192.168.175.220 node1
192.168.175.221 node2
- 关闭三台机器上的防火墙。如果开启防火墙,则需要在所有节点的防火墙上依次放行2377/tcp(管理端口)、7946/udp(节点间通信端口)、4789/udp(overlay 网络端口)端口。
[root@manager-node ~]# systemctl disable firewalld.service
[root@manager-node ~]# systemctl stop firewalld.service
- 关闭selinux(这一步一定要做,否则使用web管理工具shipyard、portainerd的时候会报错,获取不到节点、Containers、images等信息,本人就是在这里浪费了很多时间找原因)
三台机的selinux都要关闭- 临时关闭selinux
setenforce 0
:重启机器失效 - 永远关闭selinux
[root@manager-node ~]# vi /etc/selinux/config
设置SELINUX=disable
- 临时关闭selinux
安装并配置docker
分别在manager节点和node节点上安装docker,下面这几步骤三台机都要做。
安装docker
[root@manager-node ~]# yum install -y docker
-
配置docker(这一步一定要做)
[root@manager-node ~]# vim /etc/sysconfig/docker
添加
OPTIONS='-H 0.0.0.0:2375 -H unix:///var/run/docker.sock'
或OPTIONS='-H tcp://0.0.0.0:2375 -H unix:///var/run/docker.sock'
下载swarm镜像
[root@manager-node ~]# docker pull swarm
[root@manager-node ~]# docker images
初始化swarm
- 在manager-node初始化swarm , 要保存初始化后token,因为在节点加入时要使用token作为通讯的密钥
[root@manager-node ~]# docker swarm init --advertise-addr 192.168.175.219
[root@manager-node ~]# docker swarm init --advertise-addr 192.168.175.219
Swarm initialized: current node (39efft8yudtdpwmnenxewlt4r) is now a manager.
To add a worker to this swarm, run the following command:
docker swarm join \
--token SWMTKN-1-5mci820jcs7dard6jrp19gjduj562kimptqmbfgd6omurkxa36-92jgt38tfowrsmo1wdzojtnde \
192.168.175.219:2377
To add a manager to this swarm, run 'docker swarm join-token manager' and follow the instructions.
[root@manager-node ~]#
上面命令执行后,该机器自动加入到swarm集群。这个会创建一个集群token,获取全球唯一的 token,作为集群唯一标识。后续将其他节点加入集群都会用到这个token值。
--advertise-addr
参数表示其它swarm中的worker节点使用此ip地址与manager联系。命令的输出包含了其它节点如何加入集群的命令。
- 如果再次执行上面启动swarm集群的命令,会报错说这个节点已经在集群中了
Error response from daemon: This node is already part of a swarm. Use "docker swarm leave" to leave this swarm and join another one.
解决办法:
[root@manager-node ~]# docker swarm leave --help //查看帮助
[root@manager-node ~]# docker swarm leave --force
- 使用
docker info
查看集群中的相关信息
[root@manager-node ~]# docker info
Containers: 8
Running: 5
Paused: 0
Stopped: 3
Images: 6
Server Version: 1.12.6
Storage Driver: devicemapper
Pool Name: docker-253:0-101350947-pool
Pool Blocksize: 65.54 kB
Base Device Size: 10.74 GB
Backing Filesystem: xfs
Data file: /dev/loop0
Metadata file: /dev/loop1
Data Space Used: 691 MB
Data Space Total: 107.4 GB
Data Space Available: 16.93 GB
Metadata Space Used: 1.819 MB
Metadata Space Total: 2.147 GB
Metadata Space Available: 2.146 GB
Thin Pool Minimum Free Space: 10.74 GB
Udev Sync Supported: true
Deferred Removal Enabled: true
Deferred Deletion Enabled: true
Deferred Deleted Device Count: 0
Data loop file: /var/lib/docker/devicemapper/devicemapper/data
WARNING: Usage of loopback devices is strongly discouraged for production use. Use `--storage-opt dm.thinpooldev` to specify a custom block storage device.
Metadata loop file: /var/lib/docker/devicemapper/devicemapper/metadata
Library Version: 1.02.107-RHEL7 (2015-10-14)
Logging Driver: journald
Cgroup Driver: systemd
Plugins:
Volume: local
Network: overlay bridge host null
Swarm: active
NodeID: 1g8fws1ii95j1fr0wx6k7urez
Is Manager: true
ClusterID: 8i7xs4er4z0id0ax1d9qxuow0
Managers: 1
Nodes: 3
Orchestration:
Task History Retention Limit: 5
Raft:
Snapshot Interval: 10000
Heartbeat Tick: 1
Election Tick: 3
Dispatcher:
Heartbeat Period: 5 seconds
CA Configuration:
Expiry Duration: 3 months
Node Address: 192.168.175.219
Runtimes: docker-runc runc
Default Runtime: docker-runc
Security Options: seccomp selinux
Kernel Version: 3.10.0-327.el7.x86_64
Operating System: CentOS Linux 7 (Core)
OSType: linux
Architecture: x86_64
Number of Docker Hooks: 3
CPUs: 1
Total Memory: 977.9 MiB
Name: manager-node
ID: DLBU:CXA6:2FHV:U66Z:AWSB:FLR2:3SJK:LSAJ:VWF3:GBJ6:BH4N:XCD7
Docker Root Dir: /var/lib/docker
Debug Mode (client): false
Debug Mode (server): false
Registry: https://index.docker.io/v1/
WARNING: bridge-nf-call-ip6tables is disabled
Insecure Registries:
127.0.0.0/8
Registries: docker.io (secure)
- 使用
docker node ls
查看集群中的相关信息
[root@manager-node ~]# docker node ls
ID HOSTNAME STATUS AVAILABILITY MANAGER STATUS
1g8fws1ii95j1fr0wx6k7urez * manager-node Ready Active Leader
[root@manager-node ~]#
注意上面node ID旁边那个*号表示现在连接到这个节点上。
添加节点到swarm集群中
在docker swarm init 完了之后,会提示如何加入新机器到集群,如果当时没有注意到,也可以通过下面的命令来获知 如何加入新机器到集群。
- node1加入集群
[root@node1 ~]# docker swarm join --token SWMTKN-1-5mci820jcs7dard6jrp19gjduj562kimptqmbfgd6omurkxa36-92jgt38tfowrsmo1wdzojtnde 192.168.175.219:2377
This node joined a swarm as a worker.
- 同理,node2加入集群
[root@node2 ~]# docker swarm join --token SWMTKN-1-5mci820jcs7dard6jrp19gjduj562kimptqmbfgd6omurkxa36-92jgt38tfowrsmo1wdzojtnde 192.168.175.219:2377
This node joined a swarm as a worker.
如果想要将其他更多的节点添加到这个swarm集群中,添加方法如上一致!
- 更改节点的availablity状态
swarm集群中node的availability状态可以为 active或者drain,其中:
active状态下,node可以接受来自manager节点的任务分派;
drain状态下,node节点会结束task,且不再接受来自manager节点的任务分派(也就是下线节点)。
[root@manager-node ~]# docker node update --availability drain node1
node1
[root@manager-node ~]# docker node ls
ID HOSTNAME STATUS AVAILABILITY MANAGER STATUS
2tlz2oueih6dxba4rbhvccfde node1 Ready Drain
39efft8yudtdpwmnenxewlt4r * manager-node Ready Active Leader
bbj42c9481zurkwij5mu14ggs node2 Ready Active
[root@manager-node ~]#
如上,当node1的状态改为drain后,那么该节点就不会接受task任务分发,就算之前已经接受的任务也会转移到别的节点上。
- 再次修改为active状态(及将下线的节点再次上线)
[root@manager-node ~]# docker node update --availability active node1
node1
[root@manager-node ~]# docker node ls
ID HOSTNAME STATUS AVAILABILITY MANAGER STATUS
2tlz2oueih6dxba4rbhvccfde node1 Ready Active
39efft8yudtdpwmnenxewlt4r * manager-node Ready Active Leader
bbj42c9481zurkwij5mu14ggs node2 Ready Active
在Swarm中部署服务(这里以nginx服务为例)
Docker 1.12版本提供服务的Scaling、health check、滚动升级等功能,并提供了内置的dns、vip机制,实现service的服务发现和负载均衡能力。
- 在启动容器之前,先来创建一个覆盖网络,用来保证在不同主机上的容器网络互通的网络模式
[root@manager-node ~]# docker network create -d overlay ngx_net
[root@manager-node ~]# docker network ls
NETWORK ID NAME DRIVER SCOPE
e9e188b88f31 bridge bridge local
41e9d45c13b0 docker_gwbridge bridge local
82e8315ad5c5 host host local
716smdxdas29 ingress overlay swarm
4l547karc118 ngx_net overlay local
be2dfc533960 none null local
- 在manager-node节点上使用上面这个覆盖网络创建nginx服务
[root@manager-node ~]# docker service create --replicas 1 --network ngx_net --name my-test -p 80:80 nginx
就创建了一个具有一个副本(--replicas 1 )的nginx服务,使用镜像nginx
--replicas
:参数指定服务由几个实例组成。
注意:不需要提前在节点上下载nginx镜像,这个命令执行后会自动下载这个容器镜像(比如此处创建tomcat容器,就将下面命令中的镜像改为tomcat镜像)。
- 查看正在运行服务的列表
[root@manager-node ~]# docker service ls
ID NAME REPLICAS IMAGE COMMAND
0jb5eebo8j9q my-test 1/1 nginx
- 查询Swarm中服务的信息
--pretty 使命令输出格式化为可读的格式,不加 --pretty 可以输出更详细的信息:
[root@manager-node ~]# docker service inspect --pretty my-test
ID: 581r69inv9ndu2sky61tfwgdi
Name: my-test
Mode: Replicated
Replicas: 1
Placement:
UpdateConfig:
Parallelism: 1
On failure: pause
ContainerSpec:
Image: nginx
Resources:
Networks: 871i00kavj6xn1xcq488rqjih
Ports:
Protocol = tcp
TargetPort = 80
PublishedPort = 80
- 查询到哪个节点正在运行该服务。
如下该容器被调度到node1节点上启动了
[root@manager-node ~]# docker service ps my-test
ID NAME IMAGE NODE DESIRED STATE CURRENT STATE ERROR
93aomzkuar370v3arny7hl5yy my-test.1 nginx node1 Running Running 2 minutes ago
注意,如果上面命令执行后,上面的 STATE 字段中刚开始的服务状态为 Preparing,需要等一会才能变为 Running 状态,其中最费时间的应该是下载镜像的过程。
有上面命令可知,该服务在node1节点上运行。登陆该节点,可以查看到nginx容器在运行中
[root@node1 ~]# docker ps
CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES
eefef00c16de nginx:latest "nginx -g 'daemon off" 6 minutes ago Up 6 minutes 80/tcp my-test.1.93aomzkuar370v3arny7hl5yy
- 在Swarm中动态扩展服务(scale)
当然,如果只是通过service启动容器,swarm也算不上什么新鲜东西了。Service还提供了复制(类似kubernetes里的副本)功能。可以通过 docker service scale 命令来设置服务中容器的副本数:
比如将上面的my-test容器动态扩展到5个,命令如下:
[root@manager-node ~]# docker service scale my-test=5
和创建服务一样,增加scale数之后,将会创建新的容器,这些新启动的容器也会经历从准备到运行的过程,过一分钟左右,服务应该就会启动完成,这时候可以再来看一下 nginx 服务中的容器
- 停止task
[root@node2 ~]# docker stop my-test.3.di99oj7l9x6firw1ai25sewwc my-test.4.aibl3u3pph3fartub0mhwxvzr
my-test.3.di99oj7l9x6firw1ai25sewwc
my-test.4.aibl3u3pph3fartub0mhwxvzr
task会转移
- 删除容器服务
[root@manager-node ~]# docker service --help //查看帮助
[root@manager-node ~]# docker service rm my-test //这样就会把所有节点上的所有容器(task任务实例)全部删除了
my-nginx
- 除了上面使用scale进行容器的扩容或缩容之外,还可以使用docker service update 命令。 可对 服务的启动 参数 进行 更新/修改。
[root@manager-node ~]# docker service update --replicas 3 my-test
my-test
-
docker service update
命令,也可用于直接 升级 镜像等。
[root@manager-node ~]# docker service update --image nginx:new my-test