Rancher的4个监控项

经过长期的生产实践，我们发现Rancher 生产环境中经常会遇到下面这4个问题。我们整理出了这个四个问题发生的情景以及相关的监控脚本，提供给需要的朋友们。

4个监控项

ipsec 监控
主机 disconnect 监控.
stack unhealthy 监控
stack upgraded 监控

监控项对应的脚本，以及如何部署

准备工作

获取 Rancher api:
1. 打开 Rancher 其中一个环境.
2. 在顶部菜单中选择 API -> Keys，点击 “高级选项” -> “添加环境API KEY”
3. 名称统一定为 monitor .
4. 记录下 Access Key 与 Secret Key
获取Project ID
1. 打开 Rancher 其中一个环境.
2. 在顶部菜单中选择 API -> Keys，点击 “高级选项”
3. 找到端点，比如 http://rancher.wmcloud-qa.com/v2-beta/projects/1a5 , Proeject ID 即为 1a5

1. IPSEC 监控

监控原因

实际工作中，偶尔会出现主机之间的IPSEC 通道断开，这会导致两台主机间的容器无法通信，在生产中一旦发生该故障，则会出现非常严重的生产事故。

注意事项

所有Rancher主机都需要部署该监控
报警策略是，输出值改变即触发 S1 报警

监控脚本

#!/bin/bash
c_id=`docker ps | grep ipsec-router | awk -F' ' '{ print $1 }'`
#echo $c_id

n=`docker exec $c_id swanctl -S | grep IKE_SAs | awk -F' ' '{ print $2 }'`
echo $n

2.主机 disconnect 监控

监控原因

很多原因会触发Rancher主机disconnect，譬如 CPU 用满，内存用满，网络用满，磁盘用满，系统load过高， CPU上下文切换过高。一旦发生Rancher 主机 disconnect 就表明系统资源的使用已经出现严重问题，需要运维人员手工紧急处理.

注意事项

每一个Rancher Environment 需要一套 Access Key 与 Secret Key.
脚本名称 prod-respool-disconnect-monitor.sh
脚本内容, 需要修改的地方有 RANCHER_URL, RANCHER_ACCESS_KEY, RANCHER_SECRET_KEY, PROJECT_ID
报警策略是输出非0 即触发 S1报警

监控脚本

RANCHER_URL=rancher.wmcloud.com
RANCHER_ACCESS_KEY=*****
RANCHER_SECRET_KEY=*****
# get project ID easily from the URL when you're in dashboard
PROJECT_ID=1a163

# get all disconnected hosts (YELLOW)
list=`curl -s -k -u "${RANCHER_ACCESS_KEY}:${RANCHER_SECRET_KEY}" \
  "https://${RANCHER_URL}/v2-beta/projects/${PROJECT_ID}/hosts" \
  | jq '.data[] |  select(.state | contains("disconnected"))'  | jq -r .hostname `


if [[ "X${list}" == "X" ]];
then 
   echo '0'
   exit 0 
else
   echo ${list}
   exit 127
fi

3. Stack unhealthy 监控

监控原因

出现Stack unhealthy 的情况很多，比如应用程序启动失败，对某个目录权限不足，依赖的服务没有启动，Rancher主机故障等等。无论哪一种情况，都表示Stack 处于非正常工作状态，需要运维人员立即进行处理。

注意事项

每一个Rancher Environment 需要一套 Access Key 与 Secret Key.
脚本名称 prod-respool-stack-unhealthy-monitor.sh
脚本内容, 需要修改的地方有 RANCHER_URL, RANCHER_ACCESS_KEY, RANCHER_SECRET_KEY, PROJECT_ID
报警策略是输出非0 即触发 S1报警

监控脚本

#!/bin/bash

RANCHER_URL=rancher.wmcloud.com
RANCHER_ACCESS_KEY=***
RANCHER_SECRET_KEY=***

# get project ID easily from the URL when you're in dashboard
PROJECT_ID=1a163

# get all disconnected hosts (YELLOW)
list=`curl -s -k -u "${RANCHER_ACCESS_KEY}:${RANCHER_SECRET_KEY}" \
  "https://${RANCHER_URL}/v2-beta/projects/${PROJECT_ID}/stacks" \
  | jq '.data[] |  select(.healthState != "healthy")'  | jq -r .name `


if [[ "X${list}" == "X" ]];
then 
   echo '0'
   exit 0 
else
   echo '1'
   exit 127
fi

4. Stack upgrade 状态监控

监控原因

rancher 有一个bug，当stack处于 upgraded 状态时，如果主机重启，处于 upgraded 状态的service 都会处于stop 状态，并且无法自动恢复。 upgraded 状态存在的意义在于方便运维进行回滚，因此在监控时，保留24小时的缓冲时间

注意事项

每一个Rancher Environment 需要一套 Access Key 与 Secret Key.
脚本名称 prod-respool-stack-unhealthy-monitor.sh
脚本内容, 需要修改的地方有 RANCHER_URL, RANCHER_ACCESS_KEY, RANCHER_SECRET_KEY, PROJECT_ID
报警策略是输出非0 ,并且持续24小时后，即触发 S2报警

监控脚本

#!/bin/bash

RANCHER_URL=rancher.wmcloud.com
RANCHER_ACCESS_KEY=***
RANCHER_SECRET_KEY=***

# get project ID easily from the URL when you're in dashboard
PROJECT_ID=1a163

# get all disconnected hosts (YELLOW)
list=`curl -s -k -u "${RANCHER_ACCESS_KEY}:${RANCHER_SECRET_KEY}" \
  "https://${RANCHER_URL}/v2-beta/projects/${PROJECT_ID}/stacks" \
  | jq '.data[] |  select(.state == "upgraded")'  | jq -r .name `


if [[ "X${list}" == "X" ]];
then 
   echo 0
   exit 0 
else
   echo 1
   exit 127
fi