由于falcon的安装实在过于繁琐，一直使用的服务器上别人的falcon。然而PacBio官方在其官网的位置推荐使用最新的pb-assembly，于是便开始漫长的怕坑旅程。。。。。。（坑巨多）

0，安装篇

直接使用conda 安装，建议创建一个空的新环境进行安装；

conda create -n pb-assembly 
conda activate pb-assembly
conda install pb-assembly -y & #后台慢慢安装，一般不会出问题

1，首先是配置文件的不同，新版的pb-assembly中的falcon的配置文件中改变了一些参数，比如。

pa_HPCdaligner_option=-v -B128 -M24 中的参数，将不再使用-t参数。同样的。 
ovlp_HPCdaligner_option=-v -B128 -M24 也取消了-t参数，使用M限制最大内存使用。

下面是一份标准的参考配置文件（centos sge集群）

引用来自官方，组装人类的配置文件

[General]
input_fofn=input.fofn
input_type=raw
pa_DBdust_option=
pa_fasta_filter_option=pass
target=assembly
skip_checks=False
LA4Falcon_preload=false
pa_DBsplit_option=-x500 -s50
ovlp_DBsplit_option=-x500 -s50
pa_HPCTANmask_option=
pa_REPmask_code=1,100;2,80;3,60
genome_size=4560000
seed_coverage=20
length_cutoff=1200    
pa_HPCdaligner_option=-v -B128 -M24
pa_daligner_option=-e.7 -l1000 -k18 -h80 -w8 -s100
falcon_sense_option=--output-multi --min-idt 0.70 --min-cov 2 --max-n-read 800
falcon_sense_greedy=False
ovlp_daligner_option=-e.96 -l2000 -k24 -h1024 -w6 -s100
ovlp_HPCdaligner_option=-v -B128 -M24
overlap_filtering_setting=--max-diff 100 --max-cov 300 --min-cov 2
fc_ovlp_to_graph_option=
length_cutoff_pr=2000
[job.defaults]
job_type=local
pwatcher_type=blocking
JOB_QUEUE=all.q
MB=32768
NPROC=6
njobs=3
submit = /bin/bash -c "${JOB_SCRIPT}" > "${JOB_STDOUT}" 2> "${JOB_STDERR}"
[job.step.da]
NPROC=4
MB=32768
njobs=5
[job.step.la]
NPROC=4
MB=32768
njobs=5
[job.step.cns]
NPROC=8
MB=65536
njobs=5
[job.step.pla]
NPROC=4
MB=32768
njobs=5
[job.step.asm]
NPROC=24
MB=196608
njobs=1

3，数据的问题

falcon只能适用与pb的数据，因为pb数据的ID中记录有关于序列的来源信息。如果丢失了信息，回直接报错，而且报错十分不明显，需要自己仔细寻找才可以发现。如果是在NCBI下载的sra数据，则强烈建议不要使用fasterq-dump，它会认为ID不重要，会将所有的ID强行修改为SRR*，然后依次递增，这样会丢失有校信息，导致报错。直接使用fastq-dump即可，或者pfastq-dump（https://github.com/inutano/pfastq-dump.git）多线程使用。

4，测试数据集

官方的Ecoli数据,下载很慢，建议挂梯子。

5，开始运行

数据集解压缩后是三个文件

15809115915304.png

将文件写入input.fofn

echo -e "ecoli.1.fasta\necoli.2.fasta\necoli.3.fasta" >input.fofn

配置run.cfg文件。

    #### Input
[General]
input_fofn=input.fofn
input_type=raw
pa_DBdust_option=
pa_fasta_filter_option=pass
target=assembly
skip_checks=False
LA4Falcon_preload=false

#### Data Partitioning
pa_DBsplit_option=-x500 -s100
ovlp_DBsplit_option=-x500 -s100

#### Repeat Masking
pa_HPCTANmask_option=
pa_REPmask_code=1,100;2,80;3,60

####Pre-assembly
genome_size=4560000
seed_coverage=20
length_cutoff=1200    
pa_HPCdaligner_option=-v -B128 -M24
pa_daligner_option=-e.7 -l1000 -k18 -h80 -w8 -s100
falcon_sense_option=--output-multi --min-idt 0.70 --min-cov 2 --max-n-read 800
falcon_sense_greedy=False

####Pread overlapping
ovlp_daligner_option=-e.96 -l2000 -k24 -h1024 -w6 -s100
ovlp_HPCdaligner_option=-v -B128 -M24

####Final Assembly
overlap_filtering_setting=--max-diff 100 --max-cov 300 --min-cov 2
fc_ovlp_to_graph_option=
length_cutoff_pr=2000

[job.defaults]
job_type=sge
pwatcher_type=blocking
JOB_QUEUE=all.q
MB=32768
NPROC=6
njobs=3
#这里两个submit，选择一个，如果是本地运行，先将job_type=sge修改为local，
#如果是使用集群，则修改为sge。同时第一个submit为local的参数。第二个submit 
#为sge的参数，二选一。
#submit = /bin/bash -c "${JOB_SCRIPT}" > "${JOB_STDOUT}" 2> "${JOB_STDERR}"
submit =  qsub -S /bin/bash -sync y -V -q all.q
   #这里的选项都不要动，直接粘贴即可
  -N ${JOB_NAME}        \

  -o "${JOB_STDOUT}" \

  -e "${JOB_STDERR}" \

  -pe smp ${NPROC}    \

  -l h_vmem=${MB}M  \
   "${JOB_SCRIPT}"
[job.step.da]
NPROC=4
#每个任务申请核心数
MB=32768
njobs=50
#同时运行的任务个数，根据集群的大小灵活选择，下面也一样。
[job.step.la]
NPROC=4
MB=32768
njobs=50
[job.step.cns]
NPROC=8
MB=65536
njobs=50
[job.step.pla]
NPROC=4
MB=32768
njobs=50
[job.step.asm]
NPROC=4
MB=196608
njobs=6

但是运行的时候就会遇到很多坑！！！

local运行的问题不大，不用说。
sge运行的时候，特别多的问题。首先是任务自动退出。这个是有一个叫做pypflow
的包，其中有一个do_task.py包，修改其中的TIMEOUT = 30参数，可以解决报错超时的错误。
其中，任务会中断若干次，我也不清楚具体的原因。失败重新投递就行了。
但是到了最后，会出现大问题。
在2-asm-falcon文件夹中的组装的脚本中，会报错falconc command not found。
这个时候需要自己手动安装falconc，根据github中官方人员的回答，需要安装nim-falcon，但是使用conda安装的时候，安装的版本默认是0.0.0.0的版本，官方推荐0.0.0.1的版本，这个是经过他们的测试的。安装nim-falcn需要自己手动安装nim环境。

curl https://nim-lang.org/choosenim/init.sh -sSf | sh
依次输入yes，然后将NIM的安装目录添加到环境变量中
export PATH=$PATH:/home/xuwj/.nimble/bin/
添加到环境变量中

测试falconc，发现falcon会报错：

falconc :
could not found libhts.so .

这个库文件我们是拥有的，在 conda安装目录的envs/pb-assembly/lib中，添加到环境变量中。

LD_LIBRARY_PATH=/home/xuwj/software/conda/envs/pb-assembly/lib/
#不要在前面写export

配置好以后，还是会发现

falconc :
could not found libhts.so .

查阅大量资料，浪费大量时间，查找资料，终于找到了解决的办法。

首先进入lib文件夹
cd /home/xuwj/software/conda/envs/pb-assembly/lib/
ldd ./libhts.so
 #下面会显示它需要的库文件，没有的会提示。这里我缺了一个libbz2.so，这是一个很普遍的库，系统应该会有
 #直接在/usr/lib/下找到该文件
 ln -s /usr/lib64/libbz2.so.1.0.6 libbz2.so.1.0
 #重新运行
ldd ./libhts.so
 #发现该文件的所有依赖正常。
  falconc 
  falconc
0.0s version=0.0.0, nim-version=0.20.2
Usage:
  falconc {SUBCMD}  [sub-command options & parameters]
where {SUBCMD} is one of:
  help                          print comprehensive or per-cmd help
  version                       
  dataset                       
  kmers                         
  utils                         
  align-filter                  Print subreads which have decent alignments in any of the             bam inputs.
  raptor-db-filter              Read/write raptor-db to/from stdin/stdout. Exclude zmws     in blacklist.
  raptor-db-calc-length-cutoff  Perform a linear pass on an overlap file, and determine rough clipping coordinates to 'correct' reads. Write integer to
                            stdout.
  circ-orient                   reorients circular sequences based on gc-skew distribution and writes to output.
  circ-randomize                randomly rotates left rotates the sequence and writes to the output file.
  phasr                         Phase PacBio CCS/HIFI reads.

到此，一切正常，马上开始测试能否运行成功。。。。。。。。

pb-assembly的使用与测试。