pb-assembly的使用与测试。

由于falcon的安装实在过于繁琐,一直使用的服务器上别人的falcon。然而PacBio官方在其官网的位置推荐使用最新的pb-assembly,于是便开始漫长的怕坑旅程。。。。。。(坑巨多)

0,安装篇

直接使用conda 安装,建议创建一个空的新环境进行安装;

conda create -n pb-assembly 
conda activate pb-assembly
conda install pb-assembly -y & #后台慢慢安装,一般不会出问题

1,首先是配置文件的不同,新版的pb-assembly中的falcon的配置文件中改变了一些参数,比如。

pa_HPCdaligner_option=-v -B128 -M24 中的参数,将不再使用-t参数。同样的。 
ovlp_HPCdaligner_option=-v -B128 -M24 也取消了-t参数,使用M限制最大内存使用。

下面是一份标准的参考配置文件(centos sge集群)

引用来自官方,组装人类的配置文件

[General]
input_fofn=input.fofn
input_type=raw
pa_DBdust_option=
pa_fasta_filter_option=pass
target=assembly
skip_checks=False
LA4Falcon_preload=false
pa_DBsplit_option=-x500 -s50
ovlp_DBsplit_option=-x500 -s50
pa_HPCTANmask_option=
pa_REPmask_code=1,100;2,80;3,60
genome_size=4560000
seed_coverage=20
length_cutoff=1200    
pa_HPCdaligner_option=-v -B128 -M24
pa_daligner_option=-e.7 -l1000 -k18 -h80 -w8 -s100
falcon_sense_option=--output-multi --min-idt 0.70 --min-cov 2 --max-n-read 800
falcon_sense_greedy=False
ovlp_daligner_option=-e.96 -l2000 -k24 -h1024 -w6 -s100
ovlp_HPCdaligner_option=-v -B128 -M24
overlap_filtering_setting=--max-diff 100 --max-cov 300 --min-cov 2
fc_ovlp_to_graph_option=
length_cutoff_pr=2000
[job.defaults]
job_type=local
pwatcher_type=blocking
JOB_QUEUE=all.q
MB=32768
NPROC=6
njobs=3
submit = /bin/bash -c "${JOB_SCRIPT}" > "${JOB_STDOUT}" 2> "${JOB_STDERR}"
[job.step.da]
NPROC=4
MB=32768
njobs=5
[job.step.la]
NPROC=4
MB=32768
njobs=5
[job.step.cns]
NPROC=8
MB=65536
njobs=5
[job.step.pla]
NPROC=4
MB=32768
njobs=5
[job.step.asm]
NPROC=24
MB=196608
njobs=1

3,数据的问题

falcon只能适用与pb的数据,因为pb数据的ID中记录有关于序列的来源信息。如果丢失了信息,回直接报错,而且报错十分不明显,需要自己仔细寻找才可以发现。如果是在NCBI下载的sra数据,则强烈建议不要使用fasterq-dump,它会认为ID不重要,会将所有的ID强行修改为SRR*,然后依次递增,这样会丢失有校信息,导致报错。直接使用fastq-dump即可,或者pfastq-dump(https://github.com/inutano/pfastq-dump.git)多线程使用。

4,测试数据集

官方的Ecoli数据,下载很慢,建议挂梯子。

5,开始运行

数据集解压缩后是三个文件
15809115915304.png

将文件写入input.fofn

echo -e "ecoli.1.fasta\necoli.2.fasta\necoli.3.fasta" >input.fofn

配置run.cfg文件。

    #### Input
[General]
input_fofn=input.fofn
input_type=raw
pa_DBdust_option=
pa_fasta_filter_option=pass
target=assembly
skip_checks=False
LA4Falcon_preload=false

#### Data Partitioning
pa_DBsplit_option=-x500 -s100
ovlp_DBsplit_option=-x500 -s100

#### Repeat Masking
pa_HPCTANmask_option=
pa_REPmask_code=1,100;2,80;3,60

####Pre-assembly
genome_size=4560000
seed_coverage=20
length_cutoff=1200    
pa_HPCdaligner_option=-v -B128 -M24
pa_daligner_option=-e.7 -l1000 -k18 -h80 -w8 -s100
falcon_sense_option=--output-multi --min-idt 0.70 --min-cov 2 --max-n-read 800
falcon_sense_greedy=False

####Pread overlapping
ovlp_daligner_option=-e.96 -l2000 -k24 -h1024 -w6 -s100
ovlp_HPCdaligner_option=-v -B128 -M24

####Final Assembly
overlap_filtering_setting=--max-diff 100 --max-cov 300 --min-cov 2
fc_ovlp_to_graph_option=
length_cutoff_pr=2000

[job.defaults]
job_type=sge
pwatcher_type=blocking
JOB_QUEUE=all.q
MB=32768
NPROC=6
njobs=3
#这里两个submit,选择一个,如果是本地运行,先将job_type=sge修改为local,
#如果是使用集群,则修改为sge。同时第一个submit为local的参数。第二个submit 
#为sge的参数,二选一。
#submit = /bin/bash -c "${JOB_SCRIPT}" > "${JOB_STDOUT}" 2> "${JOB_STDERR}"
submit =  qsub -S /bin/bash -sync y -V -q all.q
   #这里的选项都不要动,直接粘贴即可
  -N ${JOB_NAME}        \

  -o "${JOB_STDOUT}" \

  -e "${JOB_STDERR}" \

  -pe smp ${NPROC}    \

  -l h_vmem=${MB}M  \
   "${JOB_SCRIPT}"
[job.step.da]
NPROC=4
#每个任务申请核心数
MB=32768
njobs=50
#同时运行的任务个数,根据集群的大小灵活选择,下面也一样。
[job.step.la]
NPROC=4
MB=32768
njobs=50
[job.step.cns]
NPROC=8
MB=65536
njobs=50
[job.step.pla]
NPROC=4
MB=32768
njobs=50
[job.step.asm]
NPROC=4
MB=196608
njobs=6

但是运行的时候就会遇到很多坑!!!

local运行的问题不大,不用说。
sge运行的时候,特别多的问题。首先是任务自动退出。这个是有一个叫做pypflow
的包,其中有一个do_task.py包,修改其中的TIMEOUT = 30参数,可以解决报错超时的错误。
其中,任务会中断若干次,我也不清楚具体的原因。失败重新投递就行了。
但是到了最后,会出现大问题。
在2-asm-falcon文件夹中的组装的脚本中,会报错falconc command not found。
这个时候需要自己手动安装falconc,根据github中官方人员的回答,需要安装nim-falcon,但是使用conda安装的时候,安装的版本默认是0.0.0.0的版本,官方推荐0.0.0.1的版本,这个是经过他们的测试的。安装nim-falcn需要自己手动安装nim环境。

curl https://nim-lang.org/choosenim/init.sh -sSf | sh
依次输入yes,然后将NIM的安装目录添加到环境变量中
export PATH=$PATH:/home/xuwj/.nimble/bin/
添加到环境变量中

测试falconc,发现falcon会报错:

falconc :
could not found libhts.so .

这个库文件我们是拥有的,在 conda安装目录的envs/pb-assembly/lib中,添加到环境变量中。

LD_LIBRARY_PATH=/home/xuwj/software/conda/envs/pb-assembly/lib/
#不要在前面写export

配置好以后,还是会发现

falconc :
could not found libhts.so .

查阅大量资料,浪费大量时间,查找资料,终于找到了解决的办法。

首先进入lib文件夹
cd /home/xuwj/software/conda/envs/pb-assembly/lib/
ldd ./libhts.so
 #下面会显示它需要的库文件,没有的会提示。这里我缺了一个libbz2.so,这是一个很普遍的库,系统应该会有
 #直接在/usr/lib/下找到该文件
 ln -s /usr/lib64/libbz2.so.1.0.6 libbz2.so.1.0
 #重新运行
ldd ./libhts.so
 #发现该文件的所有依赖正常。
  falconc 
  falconc
0.0s version=0.0.0, nim-version=0.20.2
Usage:
  falconc {SUBCMD}  [sub-command options & parameters]
where {SUBCMD} is one of:
  help                          print comprehensive or per-cmd help
  version                       
  dataset                       
  kmers                         
  utils                         
  align-filter                  Print subreads which have decent alignments in any of the             bam inputs.
  raptor-db-filter              Read/write raptor-db to/from stdin/stdout. Exclude zmws     in blacklist.
  raptor-db-calc-length-cutoff  Perform a linear pass on an overlap file, and determine rough clipping coordinates to 'correct' reads. Write integer to
                            stdout.
  circ-orient                   reorients circular sequences based on gc-skew distribution and writes to output.
  circ-randomize                randomly rotates left rotates the sequence and writes to the output file.
  phasr                         Phase PacBio CCS/HIFI reads.

到此,一切正常,马上开始测试能否运行成功。。。。。。。。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,504评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,434评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,089评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,378评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,472评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,506评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,519评论 3 413
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,292评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,738评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,022评论 2 329
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,194评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,873评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,536评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,162评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,413评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,075评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,080评论 2 352

推荐阅读更多精彩内容