由于falcon的安装实在过于繁琐,一直使用的服务器上别人的falcon。然而PacBio官方在其官网的位置推荐使用最新的pb-assembly,于是便开始漫长的怕坑旅程。。。。。。(坑巨多)
0,安装篇
直接使用conda 安装,建议创建一个空的新环境进行安装;
conda create -n pb-assembly
conda activate pb-assembly
conda install pb-assembly -y & #后台慢慢安装,一般不会出问题
1,首先是配置文件的不同,新版的pb-assembly中的falcon的配置文件中改变了一些参数,比如。
pa_HPCdaligner_option=-v -B128 -M24 中的参数,将不再使用-t参数。同样的。
ovlp_HPCdaligner_option=-v -B128 -M24 也取消了-t参数,使用M限制最大内存使用。
下面是一份标准的参考配置文件(centos sge集群)
引用来自官方,组装人类的配置文件
[General]
input_fofn=input.fofn
input_type=raw
pa_DBdust_option=
pa_fasta_filter_option=pass
target=assembly
skip_checks=False
LA4Falcon_preload=false
pa_DBsplit_option=-x500 -s50
ovlp_DBsplit_option=-x500 -s50
pa_HPCTANmask_option=
pa_REPmask_code=1,100;2,80;3,60
genome_size=4560000
seed_coverage=20
length_cutoff=1200
pa_HPCdaligner_option=-v -B128 -M24
pa_daligner_option=-e.7 -l1000 -k18 -h80 -w8 -s100
falcon_sense_option=--output-multi --min-idt 0.70 --min-cov 2 --max-n-read 800
falcon_sense_greedy=False
ovlp_daligner_option=-e.96 -l2000 -k24 -h1024 -w6 -s100
ovlp_HPCdaligner_option=-v -B128 -M24
overlap_filtering_setting=--max-diff 100 --max-cov 300 --min-cov 2
fc_ovlp_to_graph_option=
length_cutoff_pr=2000
[job.defaults]
job_type=local
pwatcher_type=blocking
JOB_QUEUE=all.q
MB=32768
NPROC=6
njobs=3
submit = /bin/bash -c "${JOB_SCRIPT}" > "${JOB_STDOUT}" 2> "${JOB_STDERR}"
[job.step.da]
NPROC=4
MB=32768
njobs=5
[job.step.la]
NPROC=4
MB=32768
njobs=5
[job.step.cns]
NPROC=8
MB=65536
njobs=5
[job.step.pla]
NPROC=4
MB=32768
njobs=5
[job.step.asm]
NPROC=24
MB=196608
njobs=1
3,数据的问题
falcon只能适用与pb的数据,因为pb数据的ID中记录有关于序列的来源信息。如果丢失了信息,回直接报错,而且报错十分不明显,需要自己仔细寻找才可以发现。如果是在NCBI下载的sra数据,则强烈建议不要使用fasterq-dump,它会认为ID不重要,会将所有的ID强行修改为SRR*,然后依次递增,这样会丢失有校信息,导致报错。直接使用fastq-dump即可,或者pfastq-dump(https://github.com/inutano/pfastq-dump.git)多线程使用。
4,测试数据集
官方的Ecoli数据,下载很慢,建议挂梯子。
5,开始运行
数据集解压缩后是三个文件将文件写入input.fofn
echo -e "ecoli.1.fasta\necoli.2.fasta\necoli.3.fasta" >input.fofn
配置run.cfg文件。
#### Input
[General]
input_fofn=input.fofn
input_type=raw
pa_DBdust_option=
pa_fasta_filter_option=pass
target=assembly
skip_checks=False
LA4Falcon_preload=false
#### Data Partitioning
pa_DBsplit_option=-x500 -s100
ovlp_DBsplit_option=-x500 -s100
#### Repeat Masking
pa_HPCTANmask_option=
pa_REPmask_code=1,100;2,80;3,60
####Pre-assembly
genome_size=4560000
seed_coverage=20
length_cutoff=1200
pa_HPCdaligner_option=-v -B128 -M24
pa_daligner_option=-e.7 -l1000 -k18 -h80 -w8 -s100
falcon_sense_option=--output-multi --min-idt 0.70 --min-cov 2 --max-n-read 800
falcon_sense_greedy=False
####Pread overlapping
ovlp_daligner_option=-e.96 -l2000 -k24 -h1024 -w6 -s100
ovlp_HPCdaligner_option=-v -B128 -M24
####Final Assembly
overlap_filtering_setting=--max-diff 100 --max-cov 300 --min-cov 2
fc_ovlp_to_graph_option=
length_cutoff_pr=2000
[job.defaults]
job_type=sge
pwatcher_type=blocking
JOB_QUEUE=all.q
MB=32768
NPROC=6
njobs=3
#这里两个submit,选择一个,如果是本地运行,先将job_type=sge修改为local,
#如果是使用集群,则修改为sge。同时第一个submit为local的参数。第二个submit
#为sge的参数,二选一。
#submit = /bin/bash -c "${JOB_SCRIPT}" > "${JOB_STDOUT}" 2> "${JOB_STDERR}"
submit = qsub -S /bin/bash -sync y -V -q all.q
#这里的选项都不要动,直接粘贴即可
-N ${JOB_NAME} \
-o "${JOB_STDOUT}" \
-e "${JOB_STDERR}" \
-pe smp ${NPROC} \
-l h_vmem=${MB}M \
"${JOB_SCRIPT}"
[job.step.da]
NPROC=4
#每个任务申请核心数
MB=32768
njobs=50
#同时运行的任务个数,根据集群的大小灵活选择,下面也一样。
[job.step.la]
NPROC=4
MB=32768
njobs=50
[job.step.cns]
NPROC=8
MB=65536
njobs=50
[job.step.pla]
NPROC=4
MB=32768
njobs=50
[job.step.asm]
NPROC=4
MB=196608
njobs=6
但是运行的时候就会遇到很多坑!!!
local运行的问题不大,不用说。
sge运行的时候,特别多的问题。首先是任务自动退出。这个是有一个叫做pypflow
的包,其中有一个do_task.py包,修改其中的TIMEOUT = 30参数,可以解决报错超时的错误。
其中,任务会中断若干次,我也不清楚具体的原因。失败重新投递就行了。
但是到了最后,会出现大问题。
在2-asm-falcon文件夹中的组装的脚本中,会报错falconc command not found。
这个时候需要自己手动安装falconc,根据github中官方人员的回答,需要安装nim-falcon,但是使用conda安装的时候,安装的版本默认是0.0.0.0的版本,官方推荐0.0.0.1的版本,这个是经过他们的测试的。安装nim-falcn需要自己手动安装nim环境。
curl https://nim-lang.org/choosenim/init.sh -sSf | sh
依次输入yes,然后将NIM的安装目录添加到环境变量中
export PATH=$PATH:/home/xuwj/.nimble/bin/
添加到环境变量中
测试falconc,发现falcon会报错:
falconc :
could not found libhts.so .
这个库文件我们是拥有的,在 conda安装目录的envs/pb-assembly/lib中,添加到环境变量中。
LD_LIBRARY_PATH=/home/xuwj/software/conda/envs/pb-assembly/lib/
#不要在前面写export
配置好以后,还是会发现
falconc :
could not found libhts.so .
查阅大量资料,浪费大量时间,查找资料,终于找到了解决的办法。
首先进入lib文件夹
cd /home/xuwj/software/conda/envs/pb-assembly/lib/
ldd ./libhts.so
#下面会显示它需要的库文件,没有的会提示。这里我缺了一个libbz2.so,这是一个很普遍的库,系统应该会有
#直接在/usr/lib/下找到该文件
ln -s /usr/lib64/libbz2.so.1.0.6 libbz2.so.1.0
#重新运行
ldd ./libhts.so
#发现该文件的所有依赖正常。
falconc
falconc
0.0s version=0.0.0, nim-version=0.20.2
Usage:
falconc {SUBCMD} [sub-command options & parameters]
where {SUBCMD} is one of:
help print comprehensive or per-cmd help
version
dataset
kmers
utils
align-filter Print subreads which have decent alignments in any of the bam inputs.
raptor-db-filter Read/write raptor-db to/from stdin/stdout. Exclude zmws in blacklist.
raptor-db-calc-length-cutoff Perform a linear pass on an overlap file, and determine rough clipping coordinates to 'correct' reads. Write integer to
stdout.
circ-orient reorients circular sequences based on gc-skew distribution and writes to output.
circ-randomize randomly rotates left rotates the sequence and writes to the output file.
phasr Phase PacBio CCS/HIFI reads.