问题
现场GPU集群宿主机更换网卡导致k8s控制面pod拉起全部失败
image.png
问题原因
问题原因: 更换网卡缺失 /etc/resolv.conf 导致k8s集群拉起失败
image.png
查看apiserver错误日志: 无法连接到etcd
根本原因: k8s集群拉起依赖宿主机 /etc/resolv.conf 做网络配置
image.png
image.png
修复方案
#宿主机新建dns解析文件
touch /etc/resolv.conf
cat /etc/resolv.conf
# 查看systemd-resolved服务状态
systemctl status systemd-resolved
systemctl restart systemd-resolved
#重启docker & kueblet
systemctl restart kubelet
systemctl restart docker
# fix效果
全部k8s 控制面pod成功拉起,k8s集群服务恢复正常