默认的健康检查
每个容器启动时都会执行一个进程,由 Dockerfile 的 cmd 或 entrypoint 指定,如果进程退出时返回码非零,则认为容器发生故障,kubernetes 就会根据 restartPolicy 重启容器。
下面模拟发生故障的场景。
配置文件 healthcheck.yml:
apiVersion: v1
kind: Pod
metadata:
labels:
test: healthcheck
name: healthcheck
spec:
restartPolicy: OnFailure
containers:
- name: healthcheck
image: busybox
args:
- /bin/sh
- -c
- sleep 10; exit 1 # 10秒后返回1,模拟故障
过一会儿查看 pod:
kubectl get pod
NAME READY STATUS RESTARTS AGE
healthcheck 1/1 Running 2 55s
状态为 Running
,但已经重启 2次了。
过一会儿再查看 pod:
kubectl get pod
NAME READY STATUS RESTARTS AGE
healthcheck 0/1 Error 3 118s
重启了3次,状态变为了 Error
。
liveness 探测
有的情况虽然是发生了故障,但进程不会退出,例如web服务器返回500错误,但进程没有退出,这种情况也应该重启容器,这就需要 liveness 探测来解决。
liveness 探测让我们自己定义判断容器健康的条件,如果探测失败,就重启容器。
示例
配置文件 liveness.yml
apiVersion: v1
kind: Pod
metadata:
labels:
test: liveness
name: liveness
spec:
restartPolicy: OnFailure
containers:
- name: liveness
image: busybox
args:
- /bin/sh
- -c
- touch /tmp/healthy; sleep 30; rm -rf /tmp/healthy; sleep 60
livenessProbe:
exec:
command:
- cat
- /tmp/healthy
initialDelaySeconds: 10
periodSeconds: 5
livenessProbe 部分定义:
(1)通过 cat 检查 /tmp/healthy 是否存在,存在为正常,否则故障。
(2)initialDelaySeconds: 10,指定容器启动10秒后开始执行探测。
(3)periodSeconds: 5,每5秒执行一次探测,连续3次失败就重启。
启动:
kubectl apply -f liveness.yml
开始都正常,过35秒后,文件就不存在了。
查看 pod 日志:
...
Events:
Type Reason Age From Message
---- ------ ---- ---- -------
Normal Scheduled 2m48s default-scheduler Successfully assigned default/liveness to microk8s
Warning Unhealthy 37s (x6 over 2m12s) kubelet, microk8s Liveness probe failed: cat: can't open '/tmp/healthy': No such file or directory
...
显示了错误信息。
Readiness 探测
liveness 告诉 kubernetes 什么时候重启容器实现自愈,readiness 是告诉 kubernetes 什么时候可以将容器加入到 service 负载均衡池中,对外提供服务。
示例
配置文件 readiness.yml
apiVersion: v1
kind: Pod
metadata:
labels:
test: readiness
name: readiness
spec:
restartPolicy: OnFailure
containers:
- name: readiness
image: busybox
args:
- /bin/sh
- -c
- touch /tmp/healthy; sleep 30; rm -rf /tmp/healthy; sleep 600
readinessProbe:
exec:
command:
- cat
- /tmp/healthy
initialDelaySeconds: 10
periodSeconds: 5
启动:
kubectl apply -f readiness.yml
pod 的状态变化:
(1)刚创建时,不可用
(2)15秒后,第一次探测成功,可用
(3)30秒后,文件被删除,连续3次探测失败,不可用
在 scale up 中的应用
多副本应用中,执行 scale up 时,新副本添加到 service 中,与已有副本一起处理请求,新副本的启动需要一段时间,这段时间如果接收请求的话就会报错,这就可以使用 readiness 探测,当可用时再对外提供服务。
示例:
...
readinessProbe:
httpGet:
scheme: HTTP
path: /healthy
port: 8080
initialDelaySeconds: 10
periodSeconds: 5
...
探测成功的条件是 http 请求返回码在 200 ~ 400 之间。
http://[container_ip]:8080/healthy 需要自己实现,里面有自己的判断逻辑。