SOAPdenovo2
下载地址: https://github.com/aquaskyline/SOAPdenovo2
使用方法分为两步:
第一步: 构建配置文件, 最简单的配置方法如下,详细的参考"example.config"
#maximal read length
max_rd_len=150
[LIB]
avg_ins=200
reverse_seq=0
asm_flag=3
rd_len_cutoff=150
rank=1
pair_num_cutoff=3
map_len=32
q1=/path/to/read_1.fq
q2=/path/to/read_2.fq
需要调整的参数基本就下面两个
- max_rd_len: read的长度
- avg_ins: 插入文库长度,例如500bp, 350bp文库
第二步: 开始组装, 主要参数就是K, 如果K<=63, 用SOAPdenovo-63mer
, 大于63则是SOAPdenovo-127mer
. -p
是线程数。
SOAPdenovo-63mer all -p 20 -s config -K 63 -R -o salvia 1> ass.log 2> ass.log &
结果文件是:
- *.config: contig序列
- *.scafSeq: scaffold序列
MaSuRCA: 混合组装工具
适用于二代和三代混合组装,也可以就只装二代数据。
官方提示:使用原始数据,不做任何的预处理,任何trimming, cleaning和error correction操作都会影响组装的结果。
这估计是软件本身会做上面这一步吧。
软件使用分为三步:
- 创建配置文件
~/opt/biosoft/MaSuRCA-3.2.4/bin/masurca -g config.txt
- 按照需求修改配置文件
主要分为DATA和PARAMETERS,DATA部分用来指定PE(双端illumina普通文库), JUMP(illumina大片段文库), OTHER(其他平台的测序结果)
PE = aa 180 20 /data/fwd_reads.fastq /data/rev_reads.fastq
# 两个字符作为前缀,文库插入平均大小,标准差(如果不清楚,约等于文库插入平均大小X0.15)
- 产生组装程序并运行
~/opt/biosoft/MaSuRCA-3.2.4/bin/masurca config.txt
./assemble.sh
最后的组装结果为genome.ctg.fasta
,genome.scf.fasta
关于插入片段建议阅读一篇文章说清楚什么是“插入片段”?