什么是pod?
pods
- pod 是 Kubernets 中最小的单位。
- 一个 Pod 就是一个容器环境下的“逻辑主机”,它包含一个或多个紧密相连的应用,这些应用可能是在同一台物理机或虚拟机上。
pod的 context 可以理解为多个 Linux 命名空间的联合。
- pid 命名空间(同一个pod中应用可以看到其他进程)
- 网络 命名空间 (同一个pod中的应用对相同的ip地址和端口有权限)
- IPC 命名空间 (同一个pod中的应用可以通过VPC或者POSIX进行通讯)
- UTS 命名空间 (同一个pod中的应用共享一个主机名称)
同一个Pod中的应用可以共享磁盘,磁盘是Pod级的,应用可以通过文件系统调用,额外的,一个Pod可能会定义顶级的cgroup隔离,这样的话绑定到任何一个应用(好吧,这句是在没怎么看懂,就是说Pod,应用,隔离)
由于docker的架构,一个Pod是由多个相关的并且共享磁盘的容器组成,Pid的命名空间共享还没有应用到Docker中
和相互独立的容器一样,Pod是一种相对短暂的存在,而不是持久存在的,正如我们在Pod的生命周期中提到的,Pod被安排到结点上,并且保持在这个节点上直到被终止(根据重启的设定)或者被删除,当一个节点死掉之后,上面的所有Pod均会被删除。特殊的Pod永远不会被转移到的其他的节点,作为替代,他们必须被replace.
pod 的使用
pod 可以作为垂直应用整合的载体,但是它主要的特点是同地协作,如同管理程序;例如:
- 内容管理系统,文件和数据加载,本地缓存等等
- 日志和检查点备份,压缩,循环,快照等等
- 数据交换监控,日志追踪,日志记录和监控适配器,以及事件发布等等
- 代理,网桥,适配器
- 控制,管理,配置,更新
总体来说,独立的pod不会去加载多个相同的应用实例
pod的持久化
Pod并不是被设计成一个持久化的资源,它不会在调度失败,节点崩溃,或者其他回收中(比如因为资源的缺乏,或者其他的维护中)幸存下来
总体来说,用户因该直接去创建Pod,并且一直使用controller(replication controller),即使是一个节点的情况,这是因为controller提供了集群范围内的自我修复,以及复制还有展示管理
集群API的使用是用户的主要使用方式,这是相对普遍的在如下云管理平台中( Borg, Marathon, Aurora, and Tupperware.)
Pod 的直接暴露使如下操作变得更容器
- 调度和管理的易用性
- 在没有的代理的情况下通过 API 对 pod 进行操作
- Pod 的生命周期和管理器的生命周期分离
- 解偶控制器和服务,后段服务器仅仅监控Pod
- 划分清楚了 Kuberlet 的级别功能和云平台的级别功能,Kuberlet 实际上是一个 Pod 管理器
- 高可用,当发生一些删除或者维护的过程时,Pod 会自动的在他们终止之前创建新的代替
容器的终止
因为 Pod 代表着一个集群中节点上运行的进程,当这些进程不再被需要,优雅退出是很重要的(与粗暴的用一个KILL信号去结束,让应用没有机会进行清理操作)。用户应该能请求删除,并且在室进程终止的情况下能知道,而且也能保证删除最终完成。当一个用户请求删除 Pod ,系统记录想要的优雅退出时间段,在这之前 Pod 不允许被强制杀死,TERM 信号也会发送给容器的主要进程。一旦优雅退出时间段过了,KILL 信号就会送到这些进程,Pod 就会从 API 服务器中删除。如果在等待进程结束的时候,Kuberlet 或者 容器管理器 重启了,结束过程会带着完整的优雅退出时间段进行重试。
一个示例流程:
1. 用户发送一个命令来删除Pod,默认的优雅退出时间是30秒
2. API服务器中的Pod更新时间,超过该时间Pod被认为死亡
3. 在客户端命令的的里面,Pod显示为”Terminating(退出中)”的状态
4. (与第3同时)当Kubelet看到Pod标记为退出中的时候,因为第2步中时间已经设置了,它开始pod关闭的流程
i. 如果该Pod定义了一个停止前的钩子,其会在pod内部被调用。如果钩子在优雅退出时间段超时仍然在运行,第二步会意一个很小的优雅时间断被调用
ii. 进程被发送TERM的信号
5. (与第三步同时进行)Pod从service的列表中被删除,不在被认为是运行着的pod的一部分。缓慢关闭的pod可以继续对外服务,当负载均衡器将他们轮流移除。
6. 当优雅退出时间超时了,任何pod中正在运行的进程会被发送SIGKILL信号被杀死。
7. Kubelet会完成pod的删除,将优雅退出的时间设置为0(表示立即删除)。pod从API中删除,不在对客户端可见。
默认情况下,所有的删除操作的优雅退出时间都在30秒以内。kubectl delete命令支持–graceperiod=的选项,以运行用户来修改默认值。0表示删除立即执行,并且立即从API中删除pod这样一个新的pod会在同时被创建。在节点上,被设置了立即结束的的pod,仍然会给一个很短的优雅退出时间段,才会开始被强制杀死。
使用Volume
Volume可以为容器提供持久化存储,比如
apiVersion: v1
kind: Pod
metadata:
name: redis
spec:
containers:
- name: redis
image: redis
volumeMounts:
- name: redis-storage
mountPath: /data/redis
volumes:
- name: redis-storage
emptyDir: {}
私有镜像
在使用私有镜像时,需要创建一个docker registry secret,并在容器中引用。
创建docker registry secret:
kubectl create secret docker-registry regsecret --docker-server=<your-registry-server> --docker-username=<your-name> --docker-password=<your-pword> --docker-email=<your-email>
容器中引用该secret:
apiVersion: v1
kind: Pod
metadata:
name: private-reg
spec:
containers:
- name: private-reg-container
image: <your-private-image>
imagePullSecrets:
- name: regsecret
RestartPoliy
支持三种类型的 RestartPoliy
- Always:只要退出就重启
- OnFailure: 失败退出 (exit code 不等于0 )时重启
- Never: 只要退出就不再重启
注意,这里的重启是指在Pod 所在的本地重启,并不会调度到其他node上去。