2020-05-26 df无响应

今天批量采集1962台安装了agent的虚拟机,发现有两台虚拟机的采集任务挂起,运行无法结束 ,等到超时900秒后失败退出。


挂起的任务

跟踪了查看任务执行过程,发现这两台服务器上存在大量的df进程,处理Disk状态


任务堆栈


挂起的df进程

这是由于文件系统故障,导致df命令挂起,从系统日志中可以看到大量df进程超时挂起的记录


dmsg输出

初步可以判断是文件系统错误,通过mount查看文件系统列表


mount 输出

逐个尝试df /<mountpoint>发现到该卷时挂起(strace df也可以找到问题卷,这里是因为用户服务器上没有strace命令,也没有yum 源,偷懒就采用了笨办法,逐个去尝试。)

systemd-1 on /proc/sys/fs/binfmt_misc type autofs (rw,relatime,fd=31,pgrp=1,timeout=300,minproto=5,maxproto=5,direct)

查看该服务状态

systemctl status proc-sys-fs-binfmt_misc.automount

● proc-sys-fs-binfmt_misc.automount - Arbitrary Executable File Formats File System Automount Point

   Loaded: loaded (/usr/lib/systemd/system/proc-sys-fs-binfmt_misc.automount; static; vendor preset: disabled)

   Active: active (running) since Mon 2018-07-23 16:10:34 CST; 1 years 10 months ago

    Where: /proc/sys/fs/binfmt_misc

     Docs: https://www.kernel.org/doc/Documentation/binfmt_misc.txt

           http://www.freedesktop.org/wiki/Software/systemd/APIFileSystems

Warning: Journal has been rotated since unit was started. Log output is incomplete or unavailable.

查看组件状态

systemd list-units -all|grep binfmt

binfmt服务组件状态


第二行的dead状态是问题原因。

systemctl restart proc-sys-fs-binfmt_misc.automount

重启服务,问题解决


另一台服务器是NAS卷的问题,比较简单,不赘述。

本文感谢罗茗升的协助

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。