出问题了:qsub提交任务后一直处于Q状态

环境:在SLES10SP4环境下。torque-4.2.5+maui-3.3.1
问题描述1:qsub 提交任务后,任务状态一直为Q状态,死活切换不到R状态。
尝试使用qrun强行运行
····

qrun 33.node22
提示信息出现:
未授权的操作
原因是用户不是管理员账号,没有直接运行qrun的权限。

再后来,将用户添加到qmgr管理员后,

qmgr -c ' set server managers += user@*'
再次运行qrun,
命令可以正常运行了,但依然无法调用。

查看了日志文件
*/server_log/20220917
*/mom_log/20220917

依然没有找到问题所在。

在配置环境过程中,
./configure --prefix=/usr/local/torque --with-default-server=node22

因此torque的安装目录为/usr/local/torque/
而/usr/local/torque/bin/目录下存放着以下内容


image.png

默认情况下/var/spool/torque存在着以下目录内容


image.png

如果尝试了多种方法,依然解决不了qsub提交任务为Q状态,

最后考虑重装一下maui,或许就能解决(我的问题就是这样解决的), 在配置过程中,要注意一点,指定torque的安装目录:

./configure --prefix=/usr/local/maui --with-pbs=/usr/local/torque

make -j4

make install

更改之后,如果出现一下画面,说明pbs_server运行正常。


image.png

如果出现
pbsnodes没有node list ,让你检查server_priv/nodes文件。
但你确认nodes文件已经设置好了,说明没有读入内存,将
/etc/init.d/trqauthd
/etc/init.d/pbs_server
/etc/init.d/mom
重启一下,或许就可以了。

#######################
后记,写的有点乱。解决问题毫无章法。
总结起来就1点。
如果出现qsub提交任务为Q,一般是在集群异常停电,或者其他异常情况。问题在于maui与pbs_server和pbs_mom配合出现了问题。
如果是新装电脑,重点看qmgr -c 'print server'里面的配置,
如果之前正常,中间意外情况导致不正常,重装maui或许可以快速解决这个问题。

摸索尝试了2-3天才解决,感觉好笨。希望其他人可以少走点弯路吧。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容