《每天5分钟玩转 Kubernetes》8 健康检查

默认的健康检查

每个容器启动时都会执行一个进程，由 Dockerfile 的 cmd 或 entrypoint 指定，如果进程退出时返回码非零，则认为容器发生故障，kubernetes 就会根据 restartPolicy 重启容器。

下面模拟发生故障的场景。

配置文件 healthcheck.yml：

apiVersion: v1
kind: Pod
metadata:
  labels:
    test: healthcheck
  name: healthcheck
spec:
  restartPolicy: OnFailure
  containers:
  - name: healthcheck
    image: busybox
    args:
    - /bin/sh
    - -c
    - sleep 10; exit 1 # 10秒后返回1，模拟故障

过一会儿查看 pod:

kubectl get pod

NAME                                   READY   STATUS             RESTARTS   AGE
healthcheck                            1/1     Running            2          55s

状态为 Running，但已经重启 2次了。

过一会儿再查看 pod:

kubectl get pod

NAME                                   READY   STATUS             RESTARTS   AGE
healthcheck                            0/1     Error              3          118s

重启了3次，状态变为了 Error。

liveness 探测

有的情况虽然是发生了故障，但进程不会退出，例如web服务器返回500错误，但进程没有退出，这种情况也应该重启容器，这就需要 liveness 探测来解决。

liveness 探测让我们自己定义判断容器健康的条件，如果探测失败，就重启容器。

示例

配置文件 liveness.yml

apiVersion: v1
kind: Pod
metadata:
  labels:
    test: liveness
  name: liveness
spec:
  restartPolicy: OnFailure
  containers:
  - name: liveness
    image: busybox
    args:
    - /bin/sh
    - -c
    - touch /tmp/healthy; sleep 30; rm -rf /tmp/healthy; sleep 60
    livenessProbe:
      exec:
        command:
        - cat
        - /tmp/healthy
      initialDelaySeconds: 10
      periodSeconds: 5

livenessProbe 部分定义：

（1）通过 cat 检查 /tmp/healthy 是否存在，存在为正常，否则故障。
（2）initialDelaySeconds: 10，指定容器启动10秒后开始执行探测。
（3）periodSeconds: 5，每5秒执行一次探测，连续3次失败就重启。

启动：

kubectl apply -f liveness.yml

开始都正常，过35秒后，文件就不存在了。

查看 pod 日志：

...
Events:
  Type     Reason     Age                  From               Message
  ----     ------     ----                 ----               -------
  Normal   Scheduled  2m48s                default-scheduler  Successfully assigned default/liveness to microk8s
  Warning  Unhealthy  37s (x6 over 2m12s)  kubelet, microk8s  Liveness probe failed: cat: can't open '/tmp/healthy': No such file or directory
...

显示了错误信息。

Readiness 探测

liveness 告诉 kubernetes 什么时候重启容器实现自愈，readiness 是告诉 kubernetes 什么时候可以将容器加入到 service 负载均衡池中，对外提供服务。

示例

配置文件 readiness.yml

apiVersion: v1
kind: Pod
metadata:
  labels:
    test: readiness
  name: readiness
spec:
  restartPolicy: OnFailure
  containers:
  - name: readiness
    image: busybox
    args:
    - /bin/sh
    - -c
    - touch /tmp/healthy; sleep 30; rm -rf /tmp/healthy; sleep 600
    readinessProbe:
      exec:
        command:
        - cat
        - /tmp/healthy
      initialDelaySeconds: 10
      periodSeconds: 5

启动：

kubectl apply -f readiness.yml

pod 的状态变化：

（1）刚创建时，不可用
（2）15秒后，第一次探测成功，可用
（3）30秒后，文件被删除，连续3次探测失败，不可用

在 scale up 中的应用

多副本应用中，执行 scale up 时，新副本添加到 service 中，与已有副本一起处理请求，新副本的启动需要一段时间，这段时间如果接收请求的话就会报错，这就可以使用 readiness 探测，当可用时再对外提供服务。

示例：

...
    readinessProbe:
      httpGet:
        scheme: HTTP
        path: /healthy
        port: 8080
      initialDelaySeconds: 10
      periodSeconds: 5
...

探测成功的条件是 http 请求返回码在 200 ~ 400 之间。

http://[container_ip]:8080/healthy 需要自己实现，里面有自己的判断逻辑。

《每天5分钟玩转 Kubernetes》8 健康检查