持续运行提供服务的是服务类容器,例如 http server,而 job 是一次性的工作,比如批处理程序,执行完成后就退出。
示例
myjob.xml
apiVersion: batch/v1
kind: Job
metadata:
name: myjob
spec:
template:
metadata:
name: myjob
spec:
containers:
- name: hello
image: busybox
command: ["echo", "hello job!"]
restartPolicy: Never
restartPolicy
指定书目情况下需要重启容器。对于 job,只能设置为 Never 或者 OnFailure,其他的例如 Deployment,可以设置为 Always。
启动 job:
kubectl apply -f myjob.yml
job.batch/myjob created
查看 job:
kubectl get job
NAME COMPLETIONS DURATION AGE
myjob 1/1 11s 2m15s
COMPLETIONS
为 1,说明成功执行。
查看 pod:
kubectl get pod
返回信息中没有 job 的 pod 信息,因为 job 执行完就退出了,需要查看所有 pod,包括执行完成的:
kubectl get pod --show-all
NAME READY STATUS RESTARTS AGE
myjob-h7fsb 0/1 Completed 0 4m35s
查看 job 的日志:
kubectl logs myjob-h7fsb
hello job!
pod 失败的情况
我们让 job 执行一个错误命令,模拟失败的情况,修改 myjob.yaml:
...
command: ["echo2", "hello job!"]
...
删除之前的 job:
kubectl delete -f myjob.yml
运行:
kubectl apply -f myjob.yml
查看 job:
kubectl get job
NAME COMPLETIONS DURATION AGE
myjob 0/1 4s 4s
COMPLETIONS
为 0,说明没有执行成功。
查看 pod:
kubectl get pod --show-all
NAME READY STATUS RESTARTS AGE
myjob-4d8dc 0/1 ContainerCannotRun 0 52s
myjob-4gwrp 0/1 ContainerCannotRun 0 45s
myjob-gg5kg 0/1 ContainerCannotRun 0 15s
myjob-nqhv8 0/1 ContainerCannotRun 0 35s
有多个 job 的 pod,状态都不正常,而且过一会儿再次执行此命令,会发现 pod 的数量在增加。
因为 pod 期望成功数量为1,执行失败后没有达到这个期望,就会启动新的 pod,直到达成期望值,所以就会一直这样下去,只能删除 job 才能终止。
查看其中一个失败的 pod 的日志:
kubectl log myjob-j87s5
container_linux.go:247: starting container process caused "exec: \"echo2\": executable file not found in $PATH"
显示了错误信息。
删除 job:
kubectl delete -f myjob.yml
下面试一下修改重启策略为 OnFailure:
...
restartPolicy: OnFailure
启动job:
kubectl apply -f myjob.yml
查看 pod:
kubectl get pod --show-all
NAME READY STATUS RESTARTS AGE
myjob-jzf2h 0/1 RunContainerError 1 22s
这时会发现 job 的 pod 只有一个,但 RESTARTS
的数量会增加,说明失败时重启的策略生效了。
job 并行
有时我们希望并行执行 job 提升效率,可以通过 parallelism
设置,修改 myjob.xml:
apiVersion: batch/v1
kind: Job
metadata:
name: myjob
spec:
parallelism: 2 # 并行 pod 数量设置为 2
template:
metadata:
name: myjob
spec:
containers:
- name: hello
image: busybox
command: ["echo", "hello job!"]
restartPolicy: OnFailure
先删除之前的job再启动:
kubectl delete -f myjob.yml
kubectl apply -f myjob.yml
查看 pod:
kubectl get pod --show-all
NAME READY STATUS RESTARTS AGE
myjob-6b5sr 0/1 Completed 0 31s
myjob-frv6x 0/1 Completed 0 31s
查看每个 pod 的日志:
kubectl logs myjob-6b5sr
hello job!
kubectl logs myjob-frv6x
hello job!
有2个pod,并且都成功执行了。
我们还可以设置成功执行的 pod 总数:
apiVersion: batch/v1
kind: Job
metadata:
name: myjob
spec:
completions: 6 # 直到 6 个执行完成
parallelism: 2 # 并行 pod 数量设置为 2
template:
metadata:
name: myjob
spec:
containers:
- name: hello
image: busybox
command: ["echo", "hello job!"]
restartPolicy: OnFailure
定时 job
配置文件 cronjob.yml
apiVersion: batch/v2alpha1
kind: CronJob
metadata:
name: cronjob
spec:
schedule: "*/1 * * * *" # 没分钟执行一次,格式与 linux cron 一致
jobTemplate:
spec:
template:
spec:
containers:
- name: cronjob
image: busybox
command: ["echo", "hello cron job!"]
restartPolicy: OnFailure
启动:
kubectl apply -f cronjob.yml
查看:
kubectl get cronjob
NAME SCHEDULE SUSPEND ACTIVE LAST SCHEDULE AGE
cronjob */1 * * * * False 0 34s 42s
等待2分钟查看:
kubectl get jobs
NAME COMPLETIONS DURATION AGE
cronjob-1544605860 1/1 7s 86s
cronjob-1544605920 1/1 6s 26s
kubectl get pod
NAME READY STATUS RESTARTS AGE
cronjob-1544605860-xxnqd 0/1 Completed 0 2m33s
cronjob-1544605920-mqdxq 0/1 Completed 0 93s
查看 pod 日志:
kubectl logs cronjob-1544605860-xxnqd
hello cron job!
成功执行。