《每天5分钟玩转 Kubernetes》5.3 job

持续运行提供服务的是服务类容器，例如 http server，而 job 是一次性的工作，比如批处理程序，执行完成后就退出。

示例

myjob.xml

apiVersion: batch/v1
kind: Job
metadata:
  name: myjob
spec:
  template:
    metadata:
      name: myjob
    spec:
      containers:
        - name: hello
          image: busybox
          command: ["echo", "hello job!"]
      restartPolicy: Never

restartPolicy 指定书目情况下需要重启容器。对于 job，只能设置为 Never 或者 OnFailure，其他的例如 Deployment，可以设置为 Always。

启动 job:

kubectl apply -f myjob.yml

job.batch/myjob created

查看 job:

kubectl get job

NAME    COMPLETIONS   DURATION   AGE
myjob   1/1           11s        2m15s

COMPLETIONS 为 1，说明成功执行。

查看 pod：

kubectl get pod

返回信息中没有 job 的 pod 信息，因为 job 执行完就退出了，需要查看所有 pod，包括执行完成的：

kubectl get pod --show-all

NAME                                   READY   STATUS      RESTARTS   AGE
myjob-h7fsb                            0/1     Completed   0          4m35s

查看 job 的日志：

kubectl logs myjob-h7fsb

hello job!

pod 失败的情况

我们让 job 执行一个错误命令，模拟失败的情况，修改 myjob.yaml:

...
          command: ["echo2", "hello job!"]
...

删除之前的 job:

kubectl delete -f myjob.yml

运行：

kubectl apply -f myjob.yml

查看 job:

kubectl get job
NAME    COMPLETIONS   DURATION   AGE
myjob   0/1           4s         4s

COMPLETIONS 为 0，说明没有执行成功。

查看 pod:

kubectl get pod --show-all

NAME                                   READY   STATUS               RESTARTS   AGE
myjob-4d8dc                            0/1     ContainerCannotRun   0          52s
myjob-4gwrp                            0/1     ContainerCannotRun   0          45s
myjob-gg5kg                            0/1     ContainerCannotRun   0          15s
myjob-nqhv8                            0/1     ContainerCannotRun   0          35s

有多个 job 的 pod，状态都不正常，而且过一会儿再次执行此命令，会发现 pod 的数量在增加。

因为 pod 期望成功数量为1，执行失败后没有达到这个期望，就会启动新的 pod，直到达成期望值，所以就会一直这样下去，只能删除 job 才能终止。

查看其中一个失败的 pod 的日志：

kubectl log myjob-j87s5

container_linux.go:247: starting container process caused "exec: \"echo2\": executable file not found in $PATH"

显示了错误信息。

删除 job:

kubectl delete -f myjob.yml

下面试一下修改重启策略为 OnFailure:

...
      restartPolicy: OnFailure

启动job:

kubectl apply -f myjob.yml

查看 pod:

kubectl get pod --show-all

NAME                                   READY   STATUS              RESTARTS   AGE
myjob-jzf2h                            0/1     RunContainerError   1          22s

这时会发现 job 的 pod 只有一个，但 RESTARTS 的数量会增加，说明失败时重启的策略生效了。

job 并行

有时我们希望并行执行 job 提升效率，可以通过 parallelism 设置，修改 myjob.xml:

apiVersion: batch/v1
kind: Job
metadata:
  name: myjob
spec:
  parallelism: 2 # 并行 pod 数量设置为 2
  template:
    metadata:
      name: myjob
    spec:
      containers:
        - name: hello
          image: busybox
          command: ["echo", "hello job!"]
      restartPolicy: OnFailure

先删除之前的job再启动：

kubectl delete -f myjob.yml

kubectl apply -f myjob.yml

查看 pod:

kubectl get pod --show-all

NAME                                   READY   STATUS      RESTARTS   AGE
myjob-6b5sr                            0/1     Completed   0          31s
myjob-frv6x                            0/1     Completed   0          31s

查看每个 pod 的日志：

kubectl logs myjob-6b5sr
hello job!

kubectl logs myjob-frv6x
hello job!

有2个pod，并且都成功执行了。

我们还可以设置成功执行的 pod 总数：

apiVersion: batch/v1
kind: Job
metadata:
  name: myjob
spec:
  completions: 6 # 直到 6 个执行完成
  parallelism: 2 # 并行 pod 数量设置为 2
  template:
    metadata:
      name: myjob
    spec:
      containers:
        - name: hello
          image: busybox
          command: ["echo", "hello job!"]
      restartPolicy: OnFailure

定时 job

配置文件 cronjob.yml

apiVersion: batch/v2alpha1
kind: CronJob
metadata:
  name: cronjob
spec:
  schedule: "*/1 * * * *" # 没分钟执行一次，格式与 linux cron 一致
  jobTemplate:
    spec:
      template:
        spec:
          containers:
            - name: cronjob
              image: busybox
              command: ["echo", "hello cron job!"]
          restartPolicy: OnFailure

启动：

kubectl apply -f cronjob.yml

查看：

kubectl get cronjob

NAME      SCHEDULE      SUSPEND   ACTIVE   LAST SCHEDULE   AGE
cronjob   */1 * * * *   False     0        34s             42s

等待2分钟查看：

kubectl get jobs

NAME                 COMPLETIONS   DURATION   AGE
cronjob-1544605860   1/1           7s         86s
cronjob-1544605920   1/1           6s         26s


kubectl get pod

NAME                                   READY   STATUS      RESTARTS   AGE
cronjob-1544605860-xxnqd               0/1     Completed   0          2m33s
cronjob-1544605920-mqdxq               0/1     Completed   0          93s

查看 pod 日志：

kubectl logs cronjob-1544605860-xxnqd

hello cron job!

成功执行。

《每天5分钟玩转 Kubernetes》5.3 job