08_docker集群管理工具之swarm部署

swarm简介

Swarm是Docker公司在2014年12月初发布的一套较为简单的工具，用来管理Docker集群，它将一群Docker宿主机变成一个单一的，虚拟的主机。Swarm使用标准的Docker API接口作为其前端访问入口，换言之，各种形式的Docker Client(docker client in Go, docker_py, docker等)均可以直接与Swarm通信。Swarm几乎全部用Go语言来完成开发，Swarm0.2版本增加了一个新的策略来调度集群中的容器，使得在可用的节点上传播它们，以及支持更多的Docker命令以及集群驱动。Swarm deamon只是一个调度器（Scheduler）加路由器(router)，Swarm自己不运行容器，它只是接受docker客户端发送过来的请求，调度适合的节点来运行容器，这意味着，即使Swarm由于某些原因挂掉了，集群中的节点也会照常运行，当Swarm重新恢复运行之后，它会收集重建集群信息。
Docker的Swarm(集群)模式，集成很多工具和特性，比如：跨主机上快速部署服务，服务的快速扩展，集群的管理整合到docker引擎，这意味着可以不可以不使用第三方管理工具。分散设计，声明式的服务模型，可扩展，状态协调处理，多主机网络，分布式的服务发现，负载均衡，滚动更新，安全（通信的加密）等等,下面就来认识下Swarm（对于Swarm管理的详细操作可以参考：https://www.centos.bz/tag/swarm/page/3/）

Swarm架构

Swarm作为一个管理Docker集群的工具，首先需要将其部署起来，可以单独将Swarm部署于一个节点。另外，自然需要一个Docker集群，集群上每一个节点均安装有Docker。具体的Swarm架构图可以参照下图：

Swarm架构中最主要的处理部分自然是Swarm节点，Swarm管理的对象自然是Docker Cluster，Docker Cluster由多个Docker Node组成，而负责给Swarm发送请求的是Docker Client。

Swarm关键概念

Swarm
集群的管理和编排是使用嵌入到docker引擎的SwarmKit，可以在docker初始化时启动swarm模式或者加入已存在的swarm
Node
一个节点(node)是已加入到swarm的Docker引擎的实例当部署应用到集群，你将会提交服务定义到管理节点，接着Manager管理节点调度任务到worker节点，manager节点还执行维护集群的状态的编排和群集管理功能，worker节点接收并执行来自manager节点的任务。通常，manager节点也可以是worker节点，worker节点会报告当前状态给manager节点
服务（Service）
服务是要在worker节点上要执行任务的定义，它在工作者节点上执行，当你创建服务的时，你需要指定容器镜像
任务（Task）
任务是在docekr容器中执行的命令，Manager节点根据指定数量的任务副本分配任务给worker节点

docker swarm：集群管理，子命令有init, join, leave, update。(docker swarm --help查看帮助)
docker service：服务创建，子命令有create, inspect, update, remove, tasks。(docker service--help查看帮助)
docker node：节点管理，子命令有accept, promote, demote, inspect, update, tasks, ls, rm。(docker node --help查看帮助)
node是加入到swarm集群中的一个docker引擎实体，可以在一台物理机上运行多个node，node分为：
manager nodes，也就是管理节点
worker nodes，也就是工作节点

manager node管理节点：执行集群的管理功能，维护集群的状态，选举一个leader节点去执行调度任务。
worker node工作节点：接收和执行任务。参与容器集群负载调度，仅用于承载task。
service服务：一个服务是工作节点上执行任务的定义。创建一个服务，指定了容器所使用的镜像和容器运行的命令。service是运行在worker nodes上的task的描述，service的描述包括使用哪个docker 镜像，以及在使用该镜像的容器中执行什么命令。
task任务：一个任务包含了一个容器及其运行的命令。task是service的执行实体，task启动docker容器并在容器中执行任务。

Swarm工作方式

Node
Service（服务, 任务, 容器）
任务与调度
服务副本与全局服务

Swarm调度策略

Swarm在scheduler节点（leader节点）运行容器的时候，会根据指定的策略来计算最适合运行容器的节点，目前支持的策略有：spread, binpack, random.
1）Random
顾名思义，就是随机选择一个Node来运行容器，一般用作调试用，spread和binpack策略会根据各个节点的可用的CPU, RAM以及正在运行的容器的数量来计算应该运行容器的节点。
 
2）Spread
在同等条件下，Spread策略会选择运行容器最少的那台节点来运行新的容器，binpack策略会选择运行容器最集中的那台机器来运行新的节点。使用Spread策略会使得容器会均衡的分布在集群中的各个节点上运行，一旦一个节点挂掉了只会损失少部分的容器。
 
3）Binpack
Binpack策略最大化的避免容器碎片化，就是说binpack策略尽可能的把还未使用的节点留给需要更大空间的容器运行，尽可能的把容器运行在一个节点上面。

Swarm Cluster模式的特性

1）批量创建服务
建立容器之前先创建一个overlay的网络，用来保证在不同主机上的容器网络互通的网络模式
  
2）强大的集群的容错性
当容器副本中的其中某一个或某几个节点宕机后，cluster会根据自己的服务注册发现机制，以及之前设定      的值--replicas n，在集群中剩余的空闲节点上，重新拉起容器副本。整个副本迁移的过程无需人工干预，迁移后原本的集群的load balance依旧好使！不难看出，docker service其实不仅仅是批量启动服务这么简单，而是在集群中定义了一种状态。Cluster会持续检测服务的健康状态并维护集群的高可用性。
  
3）服务节点的可扩展性
Swarm Cluster不光只是提供了优秀的高可用性，同时也提供了节点弹性扩展或缩减的功能。当容器组想动态扩展时，只需通过scale参数即可复制出新的副本出来。
  
仔细观察的话，可以发现所有扩展出来的容器副本都run在原先的节点下面，如果有需求想在每台节点上都run一个相同的副本，方法其实很简单，只需要在命令中将"--replicas n"更换成"--mode=global"即可！
 
复制服务（--replicas n）
将一系列复制任务分发至各节点当中，具体取决于您所需要的设置状态，例如“--replicas 3”。
 
全局服务（--mode=global）
适用于集群内全部可用节点上的服务任务，例如“--mode global”。如果大家在 Swarm 集群中设有 7 台 Docker 节点，则全部节点之上都将存在对应容器。
  
4）调度机制
所谓的调度其主要功能是cluster的server端去选择在哪个服务器节点上创建并启动一个容器实例的动作。它是由一个装箱算法和过滤器组合而成。每次通过过滤器（constraint）启动容器的时候，swarm cluster 都会调用调度机制筛选出匹配约束条件的服务器，并在这上面运行容器。
  
------------------Swarm cluster的创建过程包含以下三个步骤----------------------
1）发现Docker集群中的各个节点，收集节点状态、角色信息，并监视节点状态的变化
2）初始化内部调度（scheduler）模块
3）创建并启动API监听服务模块
  
一旦创建好这个cluster，就可以用命令docker service批量对集群内的容器进行操作，非常方便！
  
在启动容器后，docker 会根据当前每个swarm节点的负载判断，在负载最优的节点运行这个task任务，用"docker service ls" 和"docker service ps + taskID"可以看到任务运行在哪个节点上。容器启动后，有时需要等待一段时间才能完成容器创建。

swarm部署实例

环境准备

操作系统：centos7.2
docker版本：1.12.6
manager-node的ip:192.168.175.219
node1的ip:192.168.175.220
node2的ip:192.168.175.221

修改hostname
- 在manager-node上：[root@manager-node ~]# hostnamectl --static set-hostname manager-node
- 在node1上：[root@node1 ~]# hostnamectl --static set-hostname node1
在三机器上都要设置hosts，均执行如下命令：
vi /etc/hosts

[root@manager-node ~]# vim /etc/hosts
......
192.168.175.219 manager-node
192.168.175.220 node1
192.168.175.221 node2

关闭三台机器上的防火墙。如果开启防火墙，则需要在所有节点的防火墙上依次放行2377/tcp（管理端口）、7946/udp（节点间通信端口）、4789/udp（overlay 网络端口）端口。

[root@manager-node ~]# systemctl disable firewalld.service
[root@manager-node ~]# systemctl stop firewalld.service

关闭selinux(这一步一定要做，否则使用web管理工具shipyard、portainerd的时候会报错，获取不到节点、Containers、images等信息，本人就是在这里浪费了很多时间找原因)
三台机的selinux都要关闭
- 临时关闭selinux
  setenforce 0:重启机器失效
- 永远关闭selinux
  [root@manager-node ~]# vi /etc/selinux/config
  设置SELINUX=disable

安装并配置docker

分别在manager节点和node节点上安装docker，下面这几步骤三台机都要做。

安装docker
[root@manager-node ~]# yum install -y docker
配置docker（这一步一定要做）
[root@manager-node ~]# vim /etc/sysconfig/docker
添加
OPTIONS='-H 0.0.0.0:2375 -H unix:///var/run/docker.sock'或OPTIONS='-H tcp://0.0.0.0:2375 -H unix:///var/run/docker.sock'
下载swarm镜像

[root@manager-node ~]# docker pull swarm
[root@manager-node ~]# docker images

初始化swarm

在manager-node初始化swarm ，要保存初始化后token，因为在节点加入时要使用token作为通讯的密钥
[root@manager-node ~]# docker swarm init --advertise-addr 192.168.175.219

[root@manager-node ~]# docker swarm init --advertise-addr 192.168.175.219
Swarm initialized: current node (39efft8yudtdpwmnenxewlt4r) is now a manager.

To add a worker to this swarm, run the following command:

    docker swarm join \
    --token SWMTKN-1-5mci820jcs7dard6jrp19gjduj562kimptqmbfgd6omurkxa36-92jgt38tfowrsmo1wdzojtnde \
    192.168.175.219:2377

To add a manager to this swarm, run 'docker swarm join-token manager' and follow the instructions.

[root@manager-node ~]#

上面命令执行后，该机器自动加入到swarm集群。这个会创建一个集群token，获取全球唯一的 token，作为集群唯一标识。后续将其他节点加入集群都会用到这个token值。
--advertise-addr参数表示其它swarm中的worker节点使用此ip地址与manager联系。命令的输出包含了其它节点如何加入集群的命令。

如果再次执行上面启动swarm集群的命令，会报错说这个节点已经在集群中了
Error response from daemon: This node is already part of a swarm. Use "docker swarm leave" to leave this swarm and join another one.
解决办法：

[root@manager-node ~]# docker swarm leave --help           //查看帮助
[root@manager-node ~]# docker swarm leave --force

使用docker info 查看集群中的相关信息

[root@manager-node ~]# docker info                     
Containers: 8
 Running: 5
 Paused: 0
 Stopped: 3
Images: 6
Server Version: 1.12.6
Storage Driver: devicemapper
 Pool Name: docker-253:0-101350947-pool
 Pool Blocksize: 65.54 kB
 Base Device Size: 10.74 GB
 Backing Filesystem: xfs
 Data file: /dev/loop0
 Metadata file: /dev/loop1
 Data Space Used: 691 MB
 Data Space Total: 107.4 GB
 Data Space Available: 16.93 GB
 Metadata Space Used: 1.819 MB
 Metadata Space Total: 2.147 GB
 Metadata Space Available: 2.146 GB
 Thin Pool Minimum Free Space: 10.74 GB
 Udev Sync Supported: true
 Deferred Removal Enabled: true
 Deferred Deletion Enabled: true
 Deferred Deleted Device Count: 0
 Data loop file: /var/lib/docker/devicemapper/devicemapper/data
 WARNING: Usage of loopback devices is strongly discouraged for production use. Use `--storage-opt dm.thinpooldev` to specify a custom block storage device.
 Metadata loop file: /var/lib/docker/devicemapper/devicemapper/metadata
 Library Version: 1.02.107-RHEL7 (2015-10-14)
Logging Driver: journald
Cgroup Driver: systemd
Plugins:
 Volume: local
 Network: overlay bridge host null
Swarm: active
 NodeID: 1g8fws1ii95j1fr0wx6k7urez
 Is Manager: true
 ClusterID: 8i7xs4er4z0id0ax1d9qxuow0
 Managers: 1
 Nodes: 3
 Orchestration:
  Task History Retention Limit: 5
 Raft:
  Snapshot Interval: 10000
  Heartbeat Tick: 1
  Election Tick: 3
 Dispatcher:
  Heartbeat Period: 5 seconds
 CA Configuration:
  Expiry Duration: 3 months
 Node Address: 192.168.175.219
Runtimes: docker-runc runc
Default Runtime: docker-runc
Security Options: seccomp selinux
Kernel Version: 3.10.0-327.el7.x86_64
Operating System: CentOS Linux 7 (Core)
OSType: linux
Architecture: x86_64
Number of Docker Hooks: 3
CPUs: 1
Total Memory: 977.9 MiB
Name: manager-node
ID: DLBU:CXA6:2FHV:U66Z:AWSB:FLR2:3SJK:LSAJ:VWF3:GBJ6:BH4N:XCD7
Docker Root Dir: /var/lib/docker
Debug Mode (client): false
Debug Mode (server): false
Registry: https://index.docker.io/v1/
WARNING: bridge-nf-call-ip6tables is disabled
Insecure Registries:
 127.0.0.0/8
Registries: docker.io (secure)

使用docker node ls 查看集群中的相关信息

[root@manager-node ~]# docker node ls
ID                           HOSTNAME      STATUS  AVAILABILITY  MANAGER STATUS
1g8fws1ii95j1fr0wx6k7urez *  manager-node  Ready   Active        Leader     
[root@manager-node ~]#

注意上面node ID旁边那个*号表示现在连接到这个节点上。

添加节点到swarm集群中

在docker swarm init 完了之后，会提示如何加入新机器到集群，如果当时没有注意到，也可以通过下面的命令来获知如何加入新机器到集群。

node1加入集群

[root@node1 ~]# docker swarm join --token SWMTKN-1-5mci820jcs7dard6jrp19gjduj562kimptqmbfgd6omurkxa36-92jgt38tfowrsmo1wdzojtnde 192.168.175.219:2377
This node joined a swarm as a worker.

同理，node2加入集群

[root@node2 ~]# docker swarm join --token SWMTKN-1-5mci820jcs7dard6jrp19gjduj562kimptqmbfgd6omurkxa36-92jgt38tfowrsmo1wdzojtnde 192.168.175.219:2377
This node joined a swarm as a worker.

如果想要将其他更多的节点添加到这个swarm集群中，添加方法如上一致！

更改节点的availablity状态
swarm集群中node的availability状态可以为 active或者drain，其中：
active状态下，node可以接受来自manager节点的任务分派；
drain状态下，node节点会结束task，且不再接受来自manager节点的任务分派（也就是下线节点）。

[root@manager-node ~]# docker node update --availability drain node1
node1
[root@manager-node ~]# docker node ls
ID                           HOSTNAME      STATUS  AVAILABILITY  MANAGER STATUS
2tlz2oueih6dxba4rbhvccfde    node1         Ready   Drain         
39efft8yudtdpwmnenxewlt4r *  manager-node  Ready   Active        Leader
bbj42c9481zurkwij5mu14ggs    node2         Ready   Active        
[root@manager-node ~]#

如上，当node1的状态改为drain后，那么该节点就不会接受task任务分发，就算之前已经接受的任务也会转移到别的节点上。

再次修改为active状态（及将下线的节点再次上线）

[root@manager-node ~]# docker node update --availability active node1  
node1
[root@manager-node ~]# docker node ls
ID                           HOSTNAME      STATUS  AVAILABILITY  MANAGER STATUS
2tlz2oueih6dxba4rbhvccfde    node1         Ready   Active        
39efft8yudtdpwmnenxewlt4r *  manager-node  Ready   Active        Leader
bbj42c9481zurkwij5mu14ggs    node2         Ready   Active

在Swarm中部署服务（这里以nginx服务为例）

Docker 1.12版本提供服务的Scaling、health check、滚动升级等功能，并提供了内置的dns、vip机制，实现service的服务发现和负载均衡能力。

在启动容器之前，先来创建一个覆盖网络，用来保证在不同主机上的容器网络互通的网络模式

[root@manager-node ~]# docker network create -d overlay ngx_net
[root@manager-node ~]# docker network ls
NETWORK ID          NAME                DRIVER              SCOPE
e9e188b88f31        bridge              bridge              local               
41e9d45c13b0        docker_gwbridge     bridge              local               
82e8315ad5c5        host                host                local               
716smdxdas29        ingress             overlay             swarm               
4l547karc118        ngx_net             overlay             local               
be2dfc533960        none                null                local

在manager-node节点上使用上面这个覆盖网络创建nginx服务

[root@manager-node ~]# docker service create --replicas 1 --network ngx_net --name my-test -p 80:80 nginx

就创建了一个具有一个副本（--replicas 1 ）的nginx服务，使用镜像nginx
--replicas:参数指定服务由几个实例组成。
注意：不需要提前在节点上下载nginx镜像，这个命令执行后会自动下载这个容器镜像（比如此处创建tomcat容器，就将下面命令中的镜像改为tomcat镜像）。

查看正在运行服务的列表

[root@manager-node ~]# docker service ls
ID            NAME     REPLICAS  IMAGE            COMMAND
0jb5eebo8j9q  my-test  1/1       nginx

查询Swarm中服务的信息
--pretty 使命令输出格式化为可读的格式，不加 --pretty 可以输出更详细的信息：

[root@manager-node ~]# docker service inspect --pretty my-test
ID:             581r69inv9ndu2sky61tfwgdi
Name:           my-test
Mode:           Replicated
 Replicas:      1
Placement:
UpdateConfig:
 Parallelism:   1
 On failure:    pause
ContainerSpec:
 Image:         nginx
Resources:
Networks: 871i00kavj6xn1xcq488rqjih
Ports:
 Protocol = tcp
 TargetPort = 80
 PublishedPort = 80

查询到哪个节点正在运行该服务。
如下该容器被调度到node1节点上启动了

[root@manager-node ~]# docker service ps my-test
ID                         NAME       IMAGE  NODE   DESIRED STATE  CURRENT STATE          ERROR
93aomzkuar370v3arny7hl5yy  my-test.1  nginx  node1  Running        Running 2 minutes ago

注意，如果上面命令执行后，上面的 STATE 字段中刚开始的服务状态为 Preparing，需要等一会才能变为 Running 状态，其中最费时间的应该是下载镜像的过程。
有上面命令可知，该服务在node1节点上运行。登陆该节点，可以查看到nginx容器在运行中

[root@node1 ~]# docker ps
CONTAINER ID        IMAGE               COMMAND                  CREATED             STATUS              PORTS               NAMES
eefef00c16de        nginx:latest        "nginx -g 'daemon off"   6 minutes ago       Up 6 minutes        80/tcp              my-test.1.93aomzkuar370v3arny7hl5yy

在Swarm中动态扩展服务（scale）
当然，如果只是通过service启动容器，swarm也算不上什么新鲜东西了。Service还提供了复制（类似kubernetes里的副本）功能。可以通过 docker service scale 命令来设置服务中容器的副本数：
比如将上面的my-test容器动态扩展到5个，命令如下：

[root@manager-node ~]# docker service scale my-test=5

和创建服务一样，增加scale数之后，将会创建新的容器，这些新启动的容器也会经历从准备到运行的过程，过一分钟左右，服务应该就会启动完成，这时候可以再来看一下 nginx 服务中的容器

停止task

[root@node2 ~]# docker stop my-test.3.di99oj7l9x6firw1ai25sewwc my-test.4.aibl3u3pph3fartub0mhwxvzr
my-test.3.di99oj7l9x6firw1ai25sewwc
my-test.4.aibl3u3pph3fartub0mhwxvzr

task会转移

删除容器服务

[root@manager-node ~]# docker service --help       //查看帮助
[root@manager-node ~]# docker service rm my-test    //这样就会把所有节点上的所有容器（task任务实例）全部删除了
my-nginx

除了上面使用scale进行容器的扩容或缩容之外，还可以使用docker service update 命令。可对服务的启动参数进行更新/修改。

[root@manager-node ~]# docker service update --replicas 3 my-test
my-test

docker service update 命令，也可用于直接升级镜像等。

[root@manager-node ~]# docker service update --image nginx:new my-test

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 217,406评论 6赞 503
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,732评论 3赞 393
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 163,711评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,380评论 1赞 293
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,432评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,301评论 1赞 301
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,145评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,008评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,443评论 1赞 314
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,649评论 3赞 334
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,795评论 1赞 347
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,501评论 5赞 345
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,119评论 3赞 328
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,731评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,865评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,899评论 2赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,724评论 2赞 354