SJM 一种HPC-SGE的任务组织与状态监控工具
- SJM简介
SJM全称为Simple Job Manager,由StanfordBioinformatics团队负责开发与维护,它是一个用于管理在计算集群上运行的一组相关作业的程序,是在sge-qsub的更上一层的抽象,具有如下特性:- 它提供了一种方便的方法来指定作业之间的依赖关系以及每个作业的资源需求(例如内存、CPU内核)
- 它监视作业的状态,以便您可以知道整个组何时完成。如果任何作业失败(例如,由于计算节点崩溃),SJM允许您恢复,而无需重新运行成功完成的作业
- 最后,SJM提供了一种可移植的方式,可以将作业提交给不同的作业调度器,如Sun网格引擎或平台LSF
- 软件安装
# 注:软件安装前需要确认是否安装了Boost http://www.boost.org git clone https://github.com/StanfordBioinformatics/SJM.git cd SJM ./configure make sudo make install
- SJM job中的属性介绍
或者用一下的形式代替:job_begin name jobA queue test.q time 1h memory 500m cmd echo "hello from job jobA" job_end
多行命令在一个任务中时可以如下编写:job_begin name jobA sched_options -cwd -l vf=1G,p=1 -q test.q cmd echo "hello from job jobA" job_end
编写多个任务之间的前后关系时,采用order属性标记,如下:job_begin name jobB time 2d memory 1G queue test.q cmd_begin /home/lacroute/project/jobB_prolog.sh; /home/lacroute/project/jobB.sh; /home/lacroute/project/jobB_epilog.sh cmd_end job_end
order jobA before jobB
- 编写一个SJM的JOB并投递
投递任务:基于以上代码写在在test.job文件中,流程投递命令如下:job_begin name jobA time 4h memory 3G queue standard project sequencing cmd /home/lacroute/project/jobA.sh job_end job_begin name jobB time 2d memory 1G queue extended cmd_begin /home/lacroute/project/jobB_prolog.sh; /home/lacroute/project/jobB.sh; /home/lacroute/project/jobB_epilog.sh cmd_end job_end order jobA before jobB log_dir /home/lacroute/project/log
export PATH=sjm的文件夹:$PATH # 投递至后台 sjm test.job # 前台投递 sjm --interactive --log test.job.status.log test.job
- 基于SJM的任务流的监控
sjm投递任务后(后台投递情况下),将会产生额外三个文件,其中*.status文件为每个job任务状态记录文件,会伴随更新,job状态如下几种,注意及时查看输出的log文件信息。# 文件 test.job.status test.job.status.bak test.job.status.log # 状态 waiting 等待,未投递 running 正在执行 failed 运行失败 done 运行成功
- 基于sjm-job 抽象的模板式任务编辑工具畅想
- 基于Kubernetes集群的ARGO
Argo Workflows是一个开源的容器原生工作流引擎,用于在Kubernetes上编排并行作业。可应用与混合云等多种云计算集群的任务编排工具,高度满足命令式编排和声明式自动化的特点。
基于argo创建任务流可参见博客ARGO-工作流部署与管理工具 - 基于Cromwell的WDL
- nextflow
