OCI runtime create failed

起因是 Fedora 更新了 containerd.io 这个包。
环境信息是

  • Docker Engine
  • Fedora 34

完整的报错如下:

# docker start d8eb1107cebb                                                                     
Error response from daemon: OCI runtime create failed: container_linux.go:380: starting container process caused: process_linux.go:545: container init caused: process_linux.go:508: setting cgroup config for procHooks process caused: cannot fetch program from id: get program by id: permission denied: unknown
Error: failed to start containers: d8eb1107cebb

报错问题很明显,大概就是 permission denied,但是守护服务是使用 root 启用的,所以肯定不是 avc 的问题,看来问题大概是出现在 SELinux 上,但是遗憾的是 cat /var/log/audit/audit.log | audit2why 输出为空,也就是说 SELinux 并没有拦截 Docker 的记录。

解决一个在实际工作部署 的一个问题 “OCI runtime create failed“ 中作者同样出现这个问题,是使用关闭 SELinux 实现的,现在我试一下:

setenforce 0
docker start d8eb1107cebb

成功!这里就很奇怪,明明 SELinux 没有拦截记录,结果问题却出现在 SELinux 上。


这里有些尴尬,我为了以防万一,关机前看了一下 auditd.service ,发现它并没有 enable。。。但是竟然还有 audit 的日志,就非常奇怪。我说怎么这几天没看到警报

把 SELinux 改到抱怨模式, enable auditd.service ,然后重启。一开机就弹出来一个警告:

# cat /var/log/audit/audit.log | audit2why
type=AVC msg=audit(1626855919.807:979): avc:  denied  { prog_run } for  pid=3802 comm="runc" scontext=system_u:system_r:container_runtime_t:s0 tcontext=system_u:system_r:init_t:s0 tclass=bpf permissive=1

        Was caused by:
                Missing type enforcement (TE) allow rule.

                You can use audit2allow to generate a loadable module to allow this access.

type=AVC msg=audit(1626855920.120:998): avc:  denied  { prog_run } for  pid=3905 comm="runc" scontext=system_u:system_r:container_runtime_t:s0 tcontext=system_u:system_r:init_t:s0 tclass=bpf permissive=1

        Was caused by:
                Missing type enforcement (TE) allow rule.

                You can use audit2allow to generate a loadable module to allow this access.

问题已经很明显了,应该是 docker 更新后确实了 SELinux 的组件,自己重新做一个就行了:

mkdir -p /etc/selinux/custom
cd /etc/selinux/custom
cat /var/log/audit/audit.log | audit2allow -M docker
rm docker.te
semodule -i docker.pp

然后重启一遍看看效果

。。。
已经没有警告了,非常 nice。现在让我重新把 SELinux 打开。。。

systemd[1]: Freezing execution

2021-07-22

刚刚碰到一个很奇怪的问题:

在执行 docker run -it -vpwd:/workspace ubuntu /bin/sh 的时候,系统通知弹 systemd[1]: Freezing execution 当时没有在意,结果发现后面 docker 的操作直接卡死,然后发现 systemctl 操作也卡死。网上一搜,找到两个结果:

大意就是出现这个问题是 systemd 出问题了,但是它自己又不能重启自己,所以就报个错,让你自己重启系统。但是这可能有涉及到 SELinux 的锅了,众所周知,SELinux 出问题是一定不能乱重启的。先看看审计日志再说:

# cat /var/log/audit/audit.log | audit2why
type=AVC msg=audit(1626925225.222:1256): avc:  denied  { write } for  pid=13721 comm="systemd-coredum" name="core_pattern" dev="proc" ino=15477 scontext=system_u:system_r:systemd_coredump_t:s0 tcontext=system_u:object_r:usermodehelper_t:s0 tclass=file permissive=0

        Was caused by:
                Missing type enforcement (TE) allow rule.

                You can use audit2allow to generate a loadable module to allow this access.
# cat /var/log/audit/audit.log | audit2allow
#============= systemd_coredump_t ==============
allow systemd_coredump_t usermodehelper_t:file write;

看来是 systemd-coredump 上下文出问题了。。。

看一下 coredump:

# ls /var/lib/systemd/coredump
core.systemd.0.405e70d4f58b4927a0f84e10854bdbad.5272.1626824957000000.zst
core.systemd.0.cd25df8746344f4b8f20265276334916.245895.1626788113000000.zst
core.systemd.0.dbe468c7311b43cbbf2f7ef74b855d93.13720.1626925225000000.zst

systemd coredump 了。重新安装一下: dnf reinstall systemd 这里失误了, dnf 这东西好像依赖于服务,结果全局的服务都挂了,这个跑不了,跑事务又不敢关闭,只能等他自己发现超时了再说吧。。。

事务概要
================================================================================================================================

总下载:4.4 M
安装大小:14 M
确定吗?[y/N]: y
下载软件包:
systemd-248.4-1.fc34.x86_64.rpm                                                                 1.1 MB/s | 4.4 MB     00:03    
--------------------------------------------------------------------------------------------------------------------------------
总计                                                                                            657 kB/s | 4.4 MB     00:06     
运行事务检查
事务检查成功。
运行事务测试
事务测试成功。
运行事务
  准备中  :                                                                                                                 1/1 
  运行脚本: systemd-248.4-1.fc34.x86_64                                                                                     1/2 
  重新安装: systemd-248.4-1.fc34.x86_64                                                                                     1/2 
  运行脚本: systemd-248.4-1.fc34.x86_64                                                                                     1/2 
^C^C^C^C^C




^C
  清理    : systemd-248.4-1.fc34.x86_64                                                                                     2/2 
  运行脚本: systemd-248.4-1.fc34.x86_64                                                                                     2/2 
^CFailed to set unit properties on systemd-timedated.service: 连接超时
Failed to set unit properties on systemd-portabled.service: 连接超时
Failed to set unit properties on systemd-homed.service: 连接超时
Failed to set unit properties on systemd-hostnamed.service: 连接超时
Failed to set unit properties on systemd-journald.service: 连接超时
Failed to set unit properties on systemd-localed.service: 连接超时
Failed to set unit properties on systemd-userdbd.service: 连接超时
Failed to set unit properties on systemd-oomd.service: 连接超时

这真是。。。

这个问题应该不用管,先把 SELinux 挂到抱怨模式重启一下看看

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容