健康检查
Kubernetes文档例子:
apiVersion: v1
kind: Pod
metadata:
labels:
test: liveness
name: test-liveness-exec
spec:
containers:
- name: liveness
image: busybox
args:
- /bin/sh
- -c
- touch /tmp/healthy; sleep 30; rm -rf /tmp/healthy; sleep 600
livenessProbe:
exec:
command:
- cat
- /tmp/healthy
initialDelaySeconds: 5
periodSeconds: 5
这里定义的容器liveness会创建/healthy文件,然后30秒后删除。与此同时,健康检查每隔5秒检查文件是否存在,如果成功,则返回0,kubelet认为是容器是健康运行的。
运行这个Pod
kubectl create -f test-liveness.yaml
在30s后查看event事件,使用命令:
kubectl describe pod test-liveness-exec
可以看到因为检查到文件不存在,所以报告了异常,此时查看Pod状态
Pod是running状态,然后再次查看event事件
可以看到容器很快被杀掉,然后重新启动一个新的容器,这里就会涉及容器的恢复机制,文章后面再说。
除了使用上面命令的方式之外,还可以使用http或者tcp的方式检测
下面是http的方式:
apiVersion: v1
kind: Pod
metadata:
labels:
test: liveness
name: liveness-http
spec:
containers:
- name: liveness
image: k8s.gcr.io/liveness
args:
- /server
livenessProbe:
httpGet:
path: /healthz
port: 8080
httpHeaders:
- name: X-Custom-Header
value: Awesome
initialDelaySeconds: 3
periodSeconds: 3
容器暴露了8080端口,kubelet会定时每隔3秒访问/healthz路径,如果返回大于200少于400的状态码都认为是成功的。
下面是tcp方式:
apiVersion: v1
kind: Pod
metadata:
name: goproxy
labels:
app: goproxy
spec:
containers:
- name: goproxy
image: k8s.gcr.io/goproxy:0.1
ports:
- containerPort: 8080
readinessProbe:
tcpSocket:
port: 8080
initialDelaySeconds: 5
periodSeconds: 10
livenessProbe:
tcpSocket:
port: 8080
initialDelaySeconds: 15
periodSeconds: 20
如您所见,TCP 检查的配置与 HTTP 检查非常相似。 此示例同时使用了 readiness 和 liveness probe。 容器启动后5秒钟,kubelet将发送第一个 readiness probe。 这将尝试连接到端口8080上的 goproxy 容器。如果探测成功,则该 Pod 将被标记为就绪。Kubelet 将每隔10秒钟执行一次该检查。
如您所见,TCP 检查的配置与 HTTP 检查非常相似。 此示例同时使用了 readiness 和 liveness probe。 容器启动后5秒钟,kubelet 将发送第一个 readiness probe。 这将尝试连接到端口8080上的 goproxy 容器。如果探测成功,则该 pod 将被标记为就绪。Kubelet 将每隔10秒钟执行一次该检查。
除了 readiness probe之外,该配置还包括 liveness probe。 容器启动15秒后,kubelet 将运行第一个 liveness probe。 就像readiness probe一样,这将尝试连接到 goproxy 容器上的8080端口。如果 liveness probe 失败,容器将重新启动。
恢复机制
Pod的恢复机制,相关字段是(pod.spec.restartPolicy),默认是always,可选策略有以下三种:
- Always:在任何情况下,只要容器不在运行状态,就自动重启
- OnFailure:只有容器在异常时才自动重启
- Never:从不自动重启
具体使用哪种策略,根据具体情况,对于一些一次性的任务使用的是Never,如果需要关心异常退出后的上下文环境,比如日志、文件等,就需要设置成Never,不然的话,容器重启后这些内容就丢失。
相关设计原则: - 只要 Pod 的 restartPolicy 指定的策略允许重启异常容器(比如:Always),那么这个容器就会保持Running状态,并且进行重启。
- 对于包含多个容器的Pod,只有它里面所有的容器都进入异常状态后,Pod才会进入Failed状态。
readinessProbe
有时,应用程序暂时无法对外部流量提供服务。 例如,应用程序可能需要在启动期间加载大量数据或配置文件。 在这种情况下,您不想杀死应用程序,也不想发送请求。 Kubernetes提供了readiness probe来检测和减轻这些情况。 Pod中的容器可以报告自己还没有准备,不能处理Kubernetes服务发送过来的流量。
Readiness probe的配置跟liveness probe很像。唯一的不同是使用 readinessProbe 而不是livenessProbe。