pb-assembly的使用与测试。

由于falcon的安装实在过于繁琐,一直使用的服务器上别人的falcon。然而PacBio官方在其官网的位置推荐使用最新的pb-assembly,于是便开始漫长的怕坑旅程。。。。。。(坑巨多)

0,安装篇

直接使用conda 安装,建议创建一个空的新环境进行安装;

conda create -n pb-assembly 
conda activate pb-assembly
conda install pb-assembly -y & #后台慢慢安装,一般不会出问题

1,首先是配置文件的不同,新版的pb-assembly中的falcon的配置文件中改变了一些参数,比如。

pa_HPCdaligner_option=-v -B128 -M24 中的参数,将不再使用-t参数。同样的。 
ovlp_HPCdaligner_option=-v -B128 -M24 也取消了-t参数,使用M限制最大内存使用。

下面是一份标准的参考配置文件(centos sge集群)

引用来自官方,组装人类的配置文件

[General]
input_fofn=input.fofn
input_type=raw
pa_DBdust_option=
pa_fasta_filter_option=pass
target=assembly
skip_checks=False
LA4Falcon_preload=false
pa_DBsplit_option=-x500 -s50
ovlp_DBsplit_option=-x500 -s50
pa_HPCTANmask_option=
pa_REPmask_code=1,100;2,80;3,60
genome_size=4560000
seed_coverage=20
length_cutoff=1200    
pa_HPCdaligner_option=-v -B128 -M24
pa_daligner_option=-e.7 -l1000 -k18 -h80 -w8 -s100
falcon_sense_option=--output-multi --min-idt 0.70 --min-cov 2 --max-n-read 800
falcon_sense_greedy=False
ovlp_daligner_option=-e.96 -l2000 -k24 -h1024 -w6 -s100
ovlp_HPCdaligner_option=-v -B128 -M24
overlap_filtering_setting=--max-diff 100 --max-cov 300 --min-cov 2
fc_ovlp_to_graph_option=
length_cutoff_pr=2000
[job.defaults]
job_type=local
pwatcher_type=blocking
JOB_QUEUE=all.q
MB=32768
NPROC=6
njobs=3
submit = /bin/bash -c "${JOB_SCRIPT}" > "${JOB_STDOUT}" 2> "${JOB_STDERR}"
[job.step.da]
NPROC=4
MB=32768
njobs=5
[job.step.la]
NPROC=4
MB=32768
njobs=5
[job.step.cns]
NPROC=8
MB=65536
njobs=5
[job.step.pla]
NPROC=4
MB=32768
njobs=5
[job.step.asm]
NPROC=24
MB=196608
njobs=1

3,数据的问题

falcon只能适用与pb的数据,因为pb数据的ID中记录有关于序列的来源信息。如果丢失了信息,回直接报错,而且报错十分不明显,需要自己仔细寻找才可以发现。如果是在NCBI下载的sra数据,则强烈建议不要使用fasterq-dump,它会认为ID不重要,会将所有的ID强行修改为SRR*,然后依次递增,这样会丢失有校信息,导致报错。直接使用fastq-dump即可,或者pfastq-dump(https://github.com/inutano/pfastq-dump.git)多线程使用。

4,测试数据集

官方的Ecoli数据,下载很慢,建议挂梯子。

5,开始运行

数据集解压缩后是三个文件
15809115915304.png

将文件写入input.fofn

echo -e "ecoli.1.fasta\necoli.2.fasta\necoli.3.fasta" >input.fofn

配置run.cfg文件。

    #### Input
[General]
input_fofn=input.fofn
input_type=raw
pa_DBdust_option=
pa_fasta_filter_option=pass
target=assembly
skip_checks=False
LA4Falcon_preload=false

#### Data Partitioning
pa_DBsplit_option=-x500 -s100
ovlp_DBsplit_option=-x500 -s100

#### Repeat Masking
pa_HPCTANmask_option=
pa_REPmask_code=1,100;2,80;3,60

####Pre-assembly
genome_size=4560000
seed_coverage=20
length_cutoff=1200    
pa_HPCdaligner_option=-v -B128 -M24
pa_daligner_option=-e.7 -l1000 -k18 -h80 -w8 -s100
falcon_sense_option=--output-multi --min-idt 0.70 --min-cov 2 --max-n-read 800
falcon_sense_greedy=False

####Pread overlapping
ovlp_daligner_option=-e.96 -l2000 -k24 -h1024 -w6 -s100
ovlp_HPCdaligner_option=-v -B128 -M24

####Final Assembly
overlap_filtering_setting=--max-diff 100 --max-cov 300 --min-cov 2
fc_ovlp_to_graph_option=
length_cutoff_pr=2000

[job.defaults]
job_type=sge
pwatcher_type=blocking
JOB_QUEUE=all.q
MB=32768
NPROC=6
njobs=3
#这里两个submit,选择一个,如果是本地运行,先将job_type=sge修改为local,
#如果是使用集群,则修改为sge。同时第一个submit为local的参数。第二个submit 
#为sge的参数,二选一。
#submit = /bin/bash -c "${JOB_SCRIPT}" > "${JOB_STDOUT}" 2> "${JOB_STDERR}"
submit =  qsub -S /bin/bash -sync y -V -q all.q
   #这里的选项都不要动,直接粘贴即可
  -N ${JOB_NAME}        \

  -o "${JOB_STDOUT}" \

  -e "${JOB_STDERR}" \

  -pe smp ${NPROC}    \

  -l h_vmem=${MB}M  \
   "${JOB_SCRIPT}"
[job.step.da]
NPROC=4
#每个任务申请核心数
MB=32768
njobs=50
#同时运行的任务个数,根据集群的大小灵活选择,下面也一样。
[job.step.la]
NPROC=4
MB=32768
njobs=50
[job.step.cns]
NPROC=8
MB=65536
njobs=50
[job.step.pla]
NPROC=4
MB=32768
njobs=50
[job.step.asm]
NPROC=4
MB=196608
njobs=6

但是运行的时候就会遇到很多坑!!!

local运行的问题不大,不用说。
sge运行的时候,特别多的问题。首先是任务自动退出。这个是有一个叫做pypflow
的包,其中有一个do_task.py包,修改其中的TIMEOUT = 30参数,可以解决报错超时的错误。
其中,任务会中断若干次,我也不清楚具体的原因。失败重新投递就行了。
但是到了最后,会出现大问题。
在2-asm-falcon文件夹中的组装的脚本中,会报错falconc command not found。
这个时候需要自己手动安装falconc,根据github中官方人员的回答,需要安装nim-falcon,但是使用conda安装的时候,安装的版本默认是0.0.0.0的版本,官方推荐0.0.0.1的版本,这个是经过他们的测试的。安装nim-falcn需要自己手动安装nim环境。

curl https://nim-lang.org/choosenim/init.sh -sSf | sh
依次输入yes,然后将NIM的安装目录添加到环境变量中
export PATH=$PATH:/home/xuwj/.nimble/bin/
添加到环境变量中

测试falconc,发现falcon会报错:

falconc :
could not found libhts.so .

这个库文件我们是拥有的,在 conda安装目录的envs/pb-assembly/lib中,添加到环境变量中。

LD_LIBRARY_PATH=/home/xuwj/software/conda/envs/pb-assembly/lib/
#不要在前面写export

配置好以后,还是会发现

falconc :
could not found libhts.so .

查阅大量资料,浪费大量时间,查找资料,终于找到了解决的办法。

首先进入lib文件夹
cd /home/xuwj/software/conda/envs/pb-assembly/lib/
ldd ./libhts.so
 #下面会显示它需要的库文件,没有的会提示。这里我缺了一个libbz2.so,这是一个很普遍的库,系统应该会有
 #直接在/usr/lib/下找到该文件
 ln -s /usr/lib64/libbz2.so.1.0.6 libbz2.so.1.0
 #重新运行
ldd ./libhts.so
 #发现该文件的所有依赖正常。
  falconc 
  falconc
0.0s version=0.0.0, nim-version=0.20.2
Usage:
  falconc {SUBCMD}  [sub-command options & parameters]
where {SUBCMD} is one of:
  help                          print comprehensive or per-cmd help
  version                       
  dataset                       
  kmers                         
  utils                         
  align-filter                  Print subreads which have decent alignments in any of the             bam inputs.
  raptor-db-filter              Read/write raptor-db to/from stdin/stdout. Exclude zmws     in blacklist.
  raptor-db-calc-length-cutoff  Perform a linear pass on an overlap file, and determine rough clipping coordinates to 'correct' reads. Write integer to
                            stdout.
  circ-orient                   reorients circular sequences based on gc-skew distribution and writes to output.
  circ-randomize                randomly rotates left rotates the sequence and writes to the output file.
  phasr                         Phase PacBio CCS/HIFI reads.

到此,一切正常,马上开始测试能否运行成功。。。。。。。。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容