LSF Basis

LSF作业调度系统用户使用常见问题

调度系统对用户使用资源的限制

由于目前超算中心的建设规模远远无法满足中心用户的计算需求,而同时又是向校内师生提供免费的计算服务,无法避免的出现了使用浪费的现象。中心采取多种限制策略组合的方式,一方面保障资源的利用效率,一方面保障众多用户使用的公平性。对每个用户的限制策略主要包括以下几个方面(各超算系统的限制参数会有差别):
提交作业可使用的队列:
根据各体系计算程序的使用方法、并行计算模式、内存需求等,将队列主要分为serial队列、normal队列、mpi队列、long队列、large队列、fat队列,以及其他一些特殊的队列等。各超算系统上,队列设置可使用命令:bqueues查看,命令:bqueues -l 队列名查看各队列的详细说明信息。
最大可同时计算作业数:
单个用户的已提交作业,处于运行(RUN)状态的作业数的上限限制。
最大可同时排队作业数:
单个用户的已提交作业,处于排队(PEND)状态的作业数的上限限制。当达到此限制时,系统会有提示警告信息,用户将无法提交新的作业。可待前边排队中的作业运行之后,继续提交新的作业排队。
最大可同时计算作业进程数:
每个作业使用的进程数与运行中作业数的乘积的上限限制。每个作业使用的进程数由用户根据实际计算需求自行设定,但受到可使用队列的限制。在未达到“最大可同时计算作业数”的情形下,单作业所需进程数越多,可运行作业数越少,单作业所需进程数越少,可运行的作业数越多。并行计算的程序单作业使用的进程数越少,往往计算的越慢。
用户组最大可同时计算作业进程数:
个别课题组学生较多,申请的计算帐号也较多,为保障资源分配的公平性,以课题组为单位,对该组内所有用户可用的总的计算资源进行限制。
单作业最大可计算时间长度:
作业开始运行到运行结束的时间长度限制,防止个别用户使用脚本等长期占用计算节点,保障计算资源得到及时释放。

作业任务计算的操作步骤

准备输入文件:
通过ftp/sftp等方式将已准备好的计算任务文件上传到超算系统上,或根据需要直接在超算系统上使用vim或emacs等编写输入文件。
提交计算任务:
使用bsub命令将作业提交到LSF作业调度系统上。若提交成功,系统会显示提示信息,已提交的任务将分配得到一个作业号。利用bjobs命令可查看已提交的作业。若提交不成功,请根据系统提示执行后续操作。无法解决的问题可随时联系超算中心老师进行解答处理。
计算任务开始排队:
已提交的作业首先进入作业队列中进行排队,同一队列中作业提交的时间顺序决定在队列中的前后。
调整队列中的作业:
已经开始运行的作业无法再调整提交参数,尚在队列中排队的作业可以调整提交参数,使用命令为bmod。比如,更改作业所在队列、计算所需进程数、输出结果文件名、调整用户自己排队中作业的前后顺序等。
调度资源与分配运行:
LSF作业调度系统会实时的监测各个计算节点的空闲情况及状态,判断是否满足队列中排队作业的计算使用需求。若满足需求,则为作业分配计算节点进行计算。
作业开始计算:
当条件满足时,作业被分配到相应的计算节点上执行计算。LSF作业管理系统监测并收集正在执行的作业状态信息及输出信息,并将输出结果信息生成在作业提交时的文件目录下或作业提交时指定的文件中。
作业查询与终止:
计算中的作业,可通过查看作业默认或指定的输出文件或使用bpeek命令进行输出状态查询。若程序计算异常,可使用bkill命令终止删除作业。
获取计算结果:
默认情况下,计算结果文件保存在提交计算作业的目录下边,亦可在提交作业时指定其他的结果文件生成目录。可使用more、cat等Linux系统命令查看结果文件。或根据需要将结果文件通过ftp/sftp等方式下载到个人电脑上进行后期处理分析。

其中,3、5、6步骤将由LSF作业调度系统自动完成,无需用户参与。

提交作业命令bsub的常用参数介绍

提交作业的命令是:bsub,详细命令参数可用命令:man bsub查看。作业提交首先要确认预计算的程序有可执行权限:

hello_test

作业提交成功,系统分配得到作业号:818500。各参数说明如下:
-q
指定作业提交的队列名为normal,可根据计算需求更换为其他队列名,提交作业时必须指定。
-n
指定作业申请使用的进程数为8,可根据计算需求更换为其他进程数,提交作业时必须指定。
-o
指定作业的标准输出文件为%J.log%J在文件输出时对应作业提交后分配得到的作业号(此处为818500),可更换%J.log为其他自行定义的文件名称。
-e
指定作业的错误输出文件为%J.err%J在文件输出时对应作业提交后分配得到的作业号(此处为818500),可更换%J.err为其他自行定义的文件名称。此参数可用于在作业异常退出时查看错误提示信息,请尽量在提交作业时指定。
-J
指定作业的作业名为hello_test,可更换为其他自行定义的文件名称。
mpijob

为LSF作业调度系统的作业提交时调用的系统命令。后跟用户自己的执行程序或脚本
./123.sh
为用户自己的执行程序或脚本为hello.sh./执行程序在当前目录下。hello.sh之后,若有程序本身自己的各项参数,可照常指定添加。提交作业时必须指定。

查询作业状态命令bjobs的常用参数介绍

查询作业状态的命令是:bjobs,直接执行此命令,可查询个人帐号下所有作业的状态。命令:bjobs -l 作业号可查看作业的当前详细状态信息。作业状态有以下几种:RUN
作业正在运行计算中:

bjobs_run

PEND
作业在排队中,尚未开始计算:
bjobs_pend

PSUSP
作业在排队中时被挂起。
status3

USUSP
作业在计算过程中时被挂起。
SSUSP
作业被LSF作业调度系统挂起,

作业排队的常见原因说明:bjobs -p

查询作业排队原因的命令:bjobs -p 作业号,常见作业排队原因:

pending1

用户作业达到了排队中作业所在队列的个人作业进程数上限。此队列中用户正在运行的作业有计算结束,才会再分配后续的排队作业。
pending2

排队中作业达到了所在队列可使用节点数的上限。此队列中所有用户正在运行的作业有计算结束,才会再分配此队列中排在最前边的作业。
pending3

用于已运行的作业数达到了系统规定的限制,需已运行的作业有新的计算结束,排队中的作业才会进入系统调度。
pending4

队列中已经运行的所有作业的总使用进程数,达到了系统上队列队列总作业进程数的上限。需该队列中已运行的作业有新的计算结束,才会调度该队列中排在第一位的作业。



对未完成作业进行调整:bmod、btop、bstop、bresume

更改作业提交参数:
只能在作业尚处于排队中时,已经运行的作业无法再更改提交或计算参数。使用命令为:bmod,在提交作业时的bsub之后与mpijob之前的参数均可进行更改,此命令详细参数可用man bmod查看。更改作业的前后顺序:
有多个作业在排队时,有时希望让后提交的作业排在前边,可使用命令:btop,此命令影响的仅仅是个人帐号下自己的作业,对其他用户的作业没有任何影响。挂起未完成的作业:
可以将未完成的作业挂起,不能挂起已经处于挂起状态的作业。使用命令为:bstop,挂起的运行中的作业将终止计算,但作业进程并不结束。可使用命令bresume将挂起的作业恢复。另一种处理方法的命令是,挂起作业:bkill -s STOP,恢复作业:bkill -s CONT此命令处理中心不鼓励使用,因挂起的作业仍会占用计算节点上的系统内存,可能会影响其他用户的后续计算使用。删除结束作业:
使用命令为:bkill,对个人帐号下排队中的作业和运行中的作业均可进行操作。bkill 作业号可结束单个作业,bkill 0 结束所有作业。

作业异常退出

提交作业时请加上-o-e参数,作业异常退出后,根据标准输出和错误输出文件,查看异常退出的提示说明信息。使用bacct -l 作业号的命令可查看作业历史纪录。
常见的作业异常退出原因有:
libxxxx.so.x函数库文件未找到:程序执行需要的函数库文件缺失。请根据需要重新编译程序,指定函数库文件的存在目录。若系统上不存在需要的函数库文件,请联系超算中心老师进行统一更新安装。操作熟练的用户亦可自行安装文件到自己的帐号目录下使用。
可执行文件未找到:请指定预计算程序存的具体存在目录。
请指定一个可执行文件:作业提交时,指定的执行程序没有可执行权限。请使用命令chmod u+x 可执行文件名为指定程序添加可执行权限。
磁盘空间或内存不够:磁盘空间不够时,请及时清理使用帐号下的陈旧或无用文件,仍不满足需求的可邮件联系向中心提出申请增大磁盘空闲限额。内存不够时,请调整作业自身作业参数,或更换使用其他更大内存配置的作业队列。
用户的文件目录中存在空格:用户帐号的任务文件目录,目录名中间请勿存在空格,否则作业计算时会无任何结果输出的异常退出。
程序段错误:发生此种问题时,一般是用户自身程序的问题,请检查程序后再测试计算。
计算节点故障:程序运行过程中,使用到的计算节点发生故障,计算进程中断,作业异常退出。发生此情况时,一般均需要重新提交作业计算。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 228,156评论 6 531
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 98,401评论 3 415
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 176,069评论 0 373
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 62,873评论 1 309
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 71,635评论 6 408
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 55,128评论 1 323
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 43,203评论 3 441
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 42,365评论 0 288
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 48,881评论 1 334
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 40,733评论 3 354
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 42,935评论 1 369
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 38,475评论 5 358
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 44,172评论 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 34,582评论 0 26
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 35,821评论 1 282
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 51,595评论 3 390
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 47,908评论 2 372

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,781评论 18 139
  • linux资料总章2.1 1.0写的不好抱歉 但是2.0已经改了很多 但是错误还是无法避免 以后资料会慢慢更新 大...
    数据革命阅读 12,197评论 2 33
  • Ubuntu的发音 Ubuntu,源于非洲祖鲁人和科萨人的语言,发作 oo-boon-too 的音。了解发音是有意...
    萤火虫de梦阅读 99,423评论 9 467
  • 期末考结束了·我是加菲猫系列 (文/亦浓) “看样子,数学考得不错哦!”老妈很聪明,每次询问考试成绩一般都“哪壶开...
    开在夜里的花儿阅读 334评论 20 8
  • 有次聊天,有一个朋友(男)说:“不用那么矫情,你说你们女人嫁给谁,你不都得生孩子吗!” 其实这朋友对老婆可是很...
    荡涤心灵阅读 196评论 0 0