K8s集群是通过rancher部署的。
一、第一步先修复rancher。可以登陆rancher后其他错误可方便查看。
- 首先通过查看rancher容器启动方式可知:docker run 启动是单节点部署。
- 重启rancher容器,无法恢复。
- 重启docker,后rancher恢复。可以登陆web页面。
image.png
二、通过上面图片可知,k8s集群不可用。但是local集群的k3s是正常的。
- 我们先处理ops集群。Ops集群是运维相关业务。
根据报错可知,有2台master节点不正常。重启docker无法处理。故决定重启服务器。重启服务
器后还是无法正常,可能会有磁盘、io等相关报错。并且此时kubectl命令无法使用。到此我们先处理kubectl无法使用故障。此故障是证书相关。 - Rancher证书过期,翻看rancher官网,可以通过修改rancher容器更新证书。方法如下:https://docs.rancher.cn/docs/rancher2/trending-topics/certificate-rotation/_index/
三、更新证书后,集群恢复正常。如下状态:表面 ,但是还有一些其他问题,需要逐步处理。修复nesux3容器后,ops报错全部处理完成
image.png