问题标题pod在重新部署后,一直卡在containercreatin案例严重性--工单编号7KDA28F工单类型普通工单
提交帐号******提交时间2021-05-13 09:45:16状态待您反馈确认结单一键升级
沟通记录
2021-05-13 09:45:17 ******
pod在重新部署后,一直卡在containercreating。
Deployment删除后重新部署,可以启动容器。
但是第二次部署后,仍然卡在containercreating
2021-05-13 09:45:52 ******
附件
售后工程师: 2021-05-13 09:49:16
您好,我们已经收到您提交的问题,正在为您查看,请稍等
售后工程师: 2021-05-13 09:49:25
您好,您的问题正在处理中,请您不要关闭工单,有任何进展会第一时间为您同步,感谢您的耐心等待。
2021-05-13 09:49:25 ******
并且集群检查时,提示Metric Server组件版本过低,异常影响可能导致集群功能异常。但是升级失败
售后工程师: 2021-05-13 09:53:39
给一下公网的kubeconfig,我看看
2021-05-13 09:58:07 ******
如下
售后工程师: 2021-05-13 10:02:58
cn-hangzhou.192.168.0.252 这个节点授权给我一下
售后工程师: 2021-05-13 10:03:02
【注意】根据目前情况,阿里云需要登录您服务器进行排查。在排查之前,建议您在阿里云控制台创建快照,备份数据,以保护您数据安全。
1.VNC登录 授权阿里云对实例进行VNC登录操作
【ECS】您通过工单页面点击确认授权,即表示您授予阿里云上述操作权限并接受上述全部约定。如果您同意向阿里云提供系统管理员密码或管理终端密码,在问题处理完毕后,请您务必及时修改密码。同时提醒您在阿里云排查期间尽量不要对实例进行其它操作。
2021-05-13 10:08:00 ******
尊敬的用户,您好!
您的授权申请单(ID:5P7HTW),已授权成功,授权项目:
1.VNC登录 授权阿里云对实例进行VNC登录操作
问题处理完成后,会自动取消授权;如有问题,请随时联系我们;
2021-05-13 10:09:23 ******
cn-hangzhou.192.168.0.252的实例id是
i-bp1b2jpvwm1p
售后工程师: 2021-05-13 10:41:55
systemd和containerd的版本都低了
您那边检查一下其他节点的版本,如果也低了,都升级一下
原地升级Docker和Containerd:
1. 保证集群k8s版本在 1.12 以上
2. 使用 kubectl drain 排水掉目前需要升级的节点
3. systemctl stop kubelet 停止掉节点的kubelet服务
4. systemctl stop docker && systemctl stop containerd 停止掉节点的docker服务
5. 安装最新的containerd和docker的rpm包:
yum install -y https://acs-public-mirror.oss-cn-hangzhou.aliyuncs.com/docker-engine/daemon-build/centos/docker-ce-19.03.5-4.el7.x86_64.rpm https://acs-public-mirror.oss-cn-hangzhou.aliyuncs.com/docker-engine/daemon-build/centos/docker-ce-cli-19.03.5-4.el7.x86_64.rpm https://acs-public-mirror.oss-cn-hangzhou.aliyuncs.com/docker-engine/daemon-build/centos/containerd.io-1.2.10-3.2.el7.x86_64.rpm
原地升级系统组件:
systemd: (rpm -qa | grep systemd, 版本<219-67.el7需要升级)
6. 升级systemd: yum update -y systemd && systemctl daemon-reexec && killall runc
7. yum update systemd
8. systemctl daemon-reexec
建议您创建下快照备份,然后升级containerd
9. wget https://download.docker.com/linux/centos/7/x86_64/stable/Packages/containerd.io-1.2.10-3.2.el7.x86_64.rpm
10. 查看版本:rpm -qa | grep -E "systemd|container"
[root@ ~]# rpm -qa | grep -E "systemd|container"
systemd-libs-219-78.el7_9.3.x86_64
container-selinux-2.99-1.el7_6.noarch
systemd-219-78.el7_9.3.x86_64
containerd.io-1.2.10-3.2.el7.x86_64
systemd-sysv-219-78.el7_9.3.x86_64
2021-05-13 10:48:38 ******
这个是容器无法启动的原因还是Metric Server组件升级失败的原因?
2021-05-13 10:49:27 ******
如果是容器启动失败卡在containercreating的原因,那么为什么我删除Deployment之后重新部署就可以启动?
售后工程师: 2021-05-13 11:13:55
从事件上看,已经调度到这个节点了,但是没有进一步的行为了。正常流程下一步是调用containerd创建容器,但是这一步卡主了,节点的kubelet和containerd也没有响应的日志,只能怀疑是containerd的版本问题,而且您的这个版本过低了,建议升级一下看看
2021-05-13 11:16:00 ******
这个升级的是k8s的组件还是ecs的?
2021-05-13 11:18:50 ******
而且节点排空不了,一直是terminating。选择移除节点也不行
2021-05-13 11:21:11 ******
不排空的话,能否进linux直接升级?
售后工程师: 2021-05-13 11:21:52
是ecs上的服务
【而且节点排空不了,一直是terminating。选择移除节点也不行】这个看一下新pod是否在其他节点上有创建出来?
【不排空的话,能否进linux直接升级?】也可以,业务会中断
2021-05-13 11:24:01 ******
那我直接升级吧
2021-05-13 11:37:54 ******
这样是升级好了吗
2021-05-13 11:39:05 ******
节点状态现在是未知
售后工程师: 2021-05-13 11:42:18
是的,已经升级了。重启一下节点试试看
2021-05-13 12:09:37 ******
有一台好像升级失败了,帮忙看下
售后工程师: 2021-05-13 12:27:30
其他的都成功了没有?节点状态都running了吗?
2021-05-13 12:28:57 ******
其他的都成功了
所有的节点,包括这一台,状态都running
售后工程师: 2021-05-13 12:30:58
您截图的这个版本没有问题的,再创建deployment看看是否能成功创建pod
2021-05-13 12:32:35 ******
能成功创建。然后我还有另外一个集群,版本发您看下,看是否需要升级。
如图:
售后工程师: 2021-05-13 12:33:49
需要,也升级一下
2021-05-13 12:34:55 ******
同样的操作方式和步骤吧?
另外,还有哪些需要做升级的,我该如何检查
售后工程师: 2021-05-13 13:08:54
是的,升级步骤一样的。
服务方便暂时升级这些就行。