经过长期的生产实践,我们发现Rancher 生产环境中经常会遇到下面这4个问题。 我们整理出了这个四个问题发生的情景以及相关的监控脚本,提供给需要的朋友们。
4个监控项
- ipsec 监控
- 主机 disconnect 监控.
- stack unhealthy 监控
- stack upgraded 监控
监控项对应的脚本,以及如何部署
准备工作
- 获取 Rancher api:
- 打开 Rancher 其中一个环境.
- 在顶部菜单中选择 API -> Keys,点击 “高级选项” -> “添加环境API KEY”
- 名称统一定为 monitor .
- 记录下 Access Key 与 Secret Key
- 获取Project ID
- 打开 Rancher 其中一个环境.
- 在顶部菜单中选择 API -> Keys,点击 “高级选项”
- 找到 端点,比如 http://rancher.wmcloud-qa.com/v2-beta/projects/1a5 , Proeject ID 即为 1a5
1. IPSEC 监控
监控原因
实际工作中,偶尔会出现主机之间的IPSEC 通道断开,这会导致两台主机间的容器无法通信, 在生产中一旦发生该故障, 则会出现非常严重的生产事故。
注意事项
- 所有Rancher主机都需要部署该监控
- 报警策略是,输出值改变即触发 S1 报警
监控脚本
#!/bin/bash
c_id=`docker ps | grep ipsec-router | awk -F' ' '{ print $1 }'`
#echo $c_id
n=`docker exec $c_id swanctl -S | grep IKE_SAs | awk -F' ' '{ print $2 }'`
echo $n
2.主机 disconnect 监控
监控原因
很多原因会触发Rancher主机disconnect, 譬如 CPU 用满, 内存用满, 网络用满, 磁盘用满,系统load过高, CPU上下文切换过高。 一旦发生Rancher 主机 disconnect 就表明系统资源的使用已经出现严重问题, 需要运维人员手工紧急处理.
注意事项
- 每一个Rancher Environment 需要一套 Access Key 与 Secret Key.
- 脚本名称 prod-respool-disconnect-monitor.sh
- 脚本内容, 需要修改的地方有 RANCHER_URL, RANCHER_ACCESS_KEY, RANCHER_SECRET_KEY, PROJECT_ID
- 报警策略是输出非0 即触发 S1报警
监控脚本
RANCHER_URL=rancher.wmcloud.com
RANCHER_ACCESS_KEY=*****
RANCHER_SECRET_KEY=*****
# get project ID easily from the URL when you're in dashboard
PROJECT_ID=1a163
# get all disconnected hosts (YELLOW)
list=`curl -s -k -u "${RANCHER_ACCESS_KEY}:${RANCHER_SECRET_KEY}" \
"https://${RANCHER_URL}/v2-beta/projects/${PROJECT_ID}/hosts" \
| jq '.data[] | select(.state | contains("disconnected"))' | jq -r .hostname `
if [[ "X${list}" == "X" ]];
then
echo '0'
exit 0
else
echo ${list}
exit 127
fi
3. Stack unhealthy 监控
监控原因
出现Stack unhealthy 的情况很多,比如 应用程序启动失败, 对某个目录权限不足, 依赖的服务没有启动,Rancher主机故障等等。 无论哪一种情况,都表示Stack 处于非正常工作状态,需要运维人员立即进行处理。
注意事项
- 每一个Rancher Environment 需要一套 Access Key 与 Secret Key.
- 脚本名称 prod-respool-stack-unhealthy-monitor.sh
- 脚本内容, 需要修改的地方有 RANCHER_URL, RANCHER_ACCESS_KEY, RANCHER_SECRET_KEY, PROJECT_ID
- 报警策略是输出非0 即触发 S1报警
监控脚本
#!/bin/bash
RANCHER_URL=rancher.wmcloud.com
RANCHER_ACCESS_KEY=***
RANCHER_SECRET_KEY=***
# get project ID easily from the URL when you're in dashboard
PROJECT_ID=1a163
# get all disconnected hosts (YELLOW)
list=`curl -s -k -u "${RANCHER_ACCESS_KEY}:${RANCHER_SECRET_KEY}" \
"https://${RANCHER_URL}/v2-beta/projects/${PROJECT_ID}/stacks" \
| jq '.data[] | select(.healthState != "healthy")' | jq -r .name `
if [[ "X${list}" == "X" ]];
then
echo '0'
exit 0
else
echo '1'
exit 127
fi
4. Stack upgrade 状态监控
监控原因
rancher 有一个bug, 当stack处于 upgraded 状态时,如果主机重启, 处于 upgraded 状态的service 都会处于stop 状态,并且无法自动恢复。 upgraded 状态存在的意义在于方便运维进行回滚,因此在监控时,保留24小时的缓冲时间
注意事项
- 每一个Rancher Environment 需要一套 Access Key 与 Secret Key.
- 脚本名称 prod-respool-stack-unhealthy-monitor.sh
- 脚本内容, 需要修改的地方有 RANCHER_URL, RANCHER_ACCESS_KEY, RANCHER_SECRET_KEY, PROJECT_ID
- 报警策略是输出非0 ,并且持续24小时后,即触发 S2报警
监控脚本
#!/bin/bash
RANCHER_URL=rancher.wmcloud.com
RANCHER_ACCESS_KEY=***
RANCHER_SECRET_KEY=***
# get project ID easily from the URL when you're in dashboard
PROJECT_ID=1a163
# get all disconnected hosts (YELLOW)
list=`curl -s -k -u "${RANCHER_ACCESS_KEY}:${RANCHER_SECRET_KEY}" \
"https://${RANCHER_URL}/v2-beta/projects/${PROJECT_ID}/stacks" \
| jq '.data[] | select(.state == "upgraded")' | jq -r .name `
if [[ "X${list}" == "X" ]];
then
echo 0
exit 0
else
echo 1
exit 127
fi