今天批量采集1962台安装了agent的虚拟机,发现有两台虚拟机的采集任务挂起,运行无法结束 ,等到超时900秒后失败退出。

跟踪了查看任务执行过程,发现这两台服务器上存在大量的df进程,处理Disk状态


这是由于文件系统故障,导致df命令挂起,从系统日志中可以看到大量df进程超时挂起的记录

初步可以判断是文件系统错误,通过mount查看文件系统列表

逐个尝试df /<mountpoint>发现到该卷时挂起(strace df也可以找到问题卷,这里是因为用户服务器上没有strace命令,也没有yum 源,偷懒就采用了笨办法,逐个去尝试。)
systemd-1 on /proc/sys/fs/binfmt_misc type autofs (rw,relatime,fd=31,pgrp=1,timeout=300,minproto=5,maxproto=5,direct)
查看该服务状态
systemctl status proc-sys-fs-binfmt_misc.automount
● proc-sys-fs-binfmt_misc.automount - Arbitrary Executable File Formats File System Automount Point
Loaded: loaded (/usr/lib/systemd/system/proc-sys-fs-binfmt_misc.automount; static; vendor preset: disabled)
Active: active (running) since Mon 2018-07-23 16:10:34 CST; 1 years 10 months ago
Where: /proc/sys/fs/binfmt_misc
Docs: https://www.kernel.org/doc/Documentation/binfmt_misc.txt
http://www.freedesktop.org/wiki/Software/systemd/APIFileSystems
Warning: Journal has been rotated since unit was started. Log output is incomplete or unavailable.
查看组件状态
systemd list-units -all|grep binfmt

第二行的dead状态是问题原因。
systemctl restart proc-sys-fs-binfmt_misc.automount
重启服务,问题解决
另一台服务器是NAS卷的问题,比较简单,不赘述。
本文感谢罗茗升的协助