SJM HPC-SGE 投递任务管理工具简介

HPC-SGE环境下的任务投递方式

  HPC指的是高可用计算集群,是相对于单机服务或节点而言的,通过节点或集群间的分布式结构解决任务需求中的高算力、高存储、强动态调节等功能。
  每个节点在集群中是以相对独立的姿态在系统中存在,在多节点的集群中,需要任务投递时选择合适的任务投递工具管理任务和集群。
  一般使用SGE集群时,采用的投递工具为QSUB,具体的使用方式参见博客集群任务管理系统SGE的简明教程

SJM 一种HPC-SGE的任务组织与状态监控工具

  1. SJM简介
    SJM全称为Simple Job Manager,由StanfordBioinformatics团队负责开发与维护,它是一个用于管理在计算集群上运行的一组相关作业的程序,是在sge-qsub的更上一层的抽象,具有如下特性:
    • 它提供了一种方便的方法来指定作业之间的依赖关系以及每个作业的资源需求(例如内存、CPU内核)
    • 它监视作业的状态,以便您可以知道整个组何时完成。如果任何作业失败(例如,由于计算节点崩溃),SJM允许您恢复,而无需重新运行成功完成的作业
    • 最后,SJM提供了一种可移植的方式,可以将作业提交给不同的作业调度器,如Sun网格引擎或平台LSF
  2. 软件安装
    # 注:软件安装前需要确认是否安装了Boost http://www.boost.org
    git clone https://github.com/StanfordBioinformatics/SJM.git
    cd SJM
    ./configure
    make
    sudo make install
    
  3. SJM job中的属性介绍
    一个示例,任务以job_begin和job_end开始和结尾,任务名称用name标注,内存申请用memory标注,任务命令用cmd标注,投递队列用queue标注,:
    job_begin
        name jobA
        queue test.q
        time 1h
        memory 500m
        cmd echo "hello from job jobA"
    job_end
    
    或者用一下的形式代替:
    job_begin
        name jobA
        sched_options -cwd -l vf=1G,p=1 -q test.q
        cmd echo "hello from job jobA"
    job_end
    
    多行命令在一个任务中时可以如下编写:
    job_begin
        name jobB
        time 2d
        memory 1G
        queue test.q
        cmd_begin
            /home/lacroute/project/jobB_prolog.sh;
            /home/lacroute/project/jobB.sh;
            /home/lacroute/project/jobB_epilog.sh
        cmd_end
    job_end
    
    编写多个任务之间的前后关系时,采用order属性标记,如下:
    order jobA before jobB
  4. 编写一个SJM的JOB并投递
    编写任务:假设一个任务有A,B两个部分,且A必须在B正常结束后才能执行,可复用代码如下:
    job_begin
        name jobA
        time 4h
        memory 3G
        queue standard
        project sequencing
        cmd /home/lacroute/project/jobA.sh
    job_end
    job_begin
        name jobB
        time 2d
        memory 1G
        queue extended
        cmd_begin
            /home/lacroute/project/jobB_prolog.sh;
            /home/lacroute/project/jobB.sh;
            /home/lacroute/project/jobB_epilog.sh
        cmd_end
    job_end
    order jobA before jobB
    log_dir /home/lacroute/project/log
    
    投递任务:基于以上代码写在在test.job文件中,流程投递命令如下:
    export PATH=sjm的文件夹:$PATH
    # 投递至后台
    sjm test.job
    # 前台投递
    sjm --interactive --log test.job.status.log  test.job 
    
  5. 基于SJM的任务流的监控
    sjm投递任务后(后台投递情况下),将会产生额外三个文件,其中*.status文件为每个job任务状态记录文件,会伴随更新,job状态如下几种,注意及时查看输出的log文件信息。
    # 文件
    test.job.status
    test.job.status.bak
    test.job.status.log
    # 状态
    waiting 等待,未投递
    running 正在执行
    failed 运行失败
    done 运行成功
    
  6. 基于sjm-job 抽象的模板式任务编辑工具畅想
    我们可以规定一套模板,模块使用makefile编写,模块组织使用sjm,实现流程模块的高复用和高可用

其他类型的HPC任务流投递工具

  1. 基于Kubernetes集群的ARGO
    Argo Workflows是一个开源的容器原生工作流引擎,用于在Kubernetes上编排并行作业。可应用与混合云等多种云计算集群的任务编排工具,高度满足命令式编排和声明式自动化的特点。
    基于argo创建任务流可参见博客ARGO-工作流部署与管理工具
  2. 基于Cromwell的WDL
    WDL 是主要应用与生物信息领域的流程定义工具,需要依赖Cromwell引擎投递任务,但集群如果是SGE,其底层也是依赖QSUB投递任务的,单机节点下的配置文件如下:
    # Cromwell HTTP server settings
    include required(classpath("application"))
    webservice {
    #port = 8100
    interface = 0.0.0.0
    binding-timeout = 5s
    instance.name = "reference"
    }
    
    #database {
    #  profile = "slick.jdbc.MySQLProfile$"
    ##  db {
    #    driver = "com.mysql.cj.jdbc.Driver"
    #    url = "jdbc:mysql://host/cromwell?rewriteBatchedStatements=true"
    #    user = "user"
    #    password = "pass"
    #    connectionTimeout = 5000
    #  }
    #}
    
    call-caching {
    enabled = true
    
    # In a multi-user environment this should be false so unauthorized users don't invalidate results for authorized users.
    invalidate-bad-cache-results = true
    
    }
    
    docker {
    hash-lookup {
        # Set this to match your available quota against the Google Container Engine API
        #gcr-api-queries-per-100-seconds = 1000
    
        # Time in minutes before an entry expires from the docker hashes cache and needs to be fetched again
        #cache-entry-ttl = "20 minutes"
    
        # Maximum number of elements to be kept in the cache. If the limit is reached, old elements will be removed from the cache
        #cache-size = 200
    
        # How should docker hashes be looked up. Possible values are "local" and "remote"
        # "local": Lookup hashes on the local docker daemon using the cli
        # "remote": Lookup hashes on docker hub and gcr
        #method = "remote"
    }
    }
    
    backend {
    default = Local
    
    providers {
        Local {
        actor-factory = "cromwell.backend.impl.sfs.config.ConfigBackendLifecycleActorFactory"
        config {
                run-in-background = true
                runtime-attributes = """
                String? docker
                String? docker_user
                String? sge_mount
                """
                submit = "${job_shell} ${script}"
                submit-docker = """
                # make sure there is no preexisting Docker CID file
                rm -f ${docker_cid}
                # run as in the original configuration without --rm flag (will remove later)
                docker run \
                    --cidfile ${docker_cid} \
                    -i \
                    ${"--user " + docker_user} \
                    --entrypoint ${job_shell} \
                    -v ${cwd}:${docker_cwd}:delegated \
                    ${sge_mount} \
                    ${docker} ${docker_script}
    
                # get the return code (working even if the container was detached)
                rc=$(docker wait `cat ${docker_cid}`)
    
                # remove the container after waiting
                docker rm `cat ${docker_cid}`
    
                # return exit code
                exit $rc
                """
            kill-docker = "docker kill `cat ${docker_cid}`"
            root = "cromwell-executions"
            filesystems {
    
                # For SFS backends, the "local" configuration specifies how files are handled.
                local {
    
                    # Try to hard link (ln), then soft-link (ln -s), and if both fail, then copy the files.
                    localization: [
                    "hard-link", "soft-link", "copy"
                    ]
    
                    # Call caching strategies
                    caching {
                    # When copying a cached result, what type of file duplication should occur.
                    # For more information check: https://cromwell.readthedocs.io/en/stable/backends/HPC/#shared-filesystem
                    duplication-strategy: [
                        "hard-link", "soft-link", "copy"
                    ]
    
                    # Strategy to determine if a file has been used before.
                    # For extended explanation and alternative strategies check: https://cromwell.readthedocs.io/en/stable/Configuring/#call-caching
                    hashing-strategy: "md5"
    
                    # When true, will check if a sibling file with the same name and the .md5 extension exists, and if it does, use the content of this file as a hash.
                    # If false or the md5 does not exist, will proceed with the above-defined hashing strategy.
                    check-sibling-md5: false
                    }
                }
                }
    
                # The defaults for runtime attributes if not provided.
                default-runtime-attributes {
                failOnStderr: false
                continueOnReturnCode: 0
                }
            }
        }
    }
    }
    
    
  3. nextflow
    流程预定义,可以直接下载模板后运行,定制化程度不高,特殊需求下,需要手动运行命令分析,详情参考生信流程大全-基于nextflow的nf-core
  4. snakemake
    某种程度上和WDL比较像,通过模块间的输入输出定义流程的DAG。

引用

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,047评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,807评论 3 386
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,501评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,839评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,951评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,117评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,188评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,929评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,372评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,679评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,837评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,536评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,168评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,886评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,129评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,665评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,739评论 2 351

推荐阅读更多精彩内容