导读
SPAdes是2012年发表在Journal of Computational Biology上的一篇文章提出的二代测序组装软件,是目前引用量已经达到6200+,在宏基因组组装软件中引用量最高【其他组学不清楚了】。SPAdes不仅推出rnaSPAdes【转录组】、metaSPAdes【宏基因组】、plasmindSPAdes【质粒】,还推出了可以用于二代、三代测序数据混合组装的hybrid SPAdes功能。SPAdes虽然在速度、效率上比不过megahit,但SPAdes内部含校错功能,组装更加准确,也因此适合二代、三代混合组装。
官网:http://cab.spbu.ru/software/spades/
一、SPAdes相关的文章
【1】SPAdes
文章:SPAdes: a new genome assembly algorithm and its applications to single-cell sequencing
杂志:J Comput Biol.
时间:2012
引用:6241+
【2】plasmidSPAdes
杂志:plasmidSPAdes: assembling plasmids from whole genome sequencing data
杂志:Bioinformatics
时间:2016
【3】hybridSPAdes
文章:hybridSPAdes: an algorithm for hybrid assembly of short and long reads
杂志:Bioinformatics
时间:2016
【4】metaSPAdes
文章:metaSPAdes: a new versatile metagenomic assembler
杂志:Genome Res.
时间:2017
【5】rnaSPAdes
文章:rnaSPAdes: a de novo transcriptome assembler and its application to RNA-Seq data
杂志:Gigascience
时间:2019
二、下载、安装SPAdes
wget -c http://cab.spbu.ru/files/release3.14.0/SPAdes-3.14.0-Linux.tar.gz
# 下载目前最新版spades3.14.0
# 下载解压即可使用
meta rna plasmind都在里面了,hybrid在spades中使用混合组装参数即可【在下面了】
conda安装
conda create -n assembly
conda activate assembly
conda install spades
三、SPAdes混合组装二代、三代
在软件canu文章的补充材料中看到了SPAdes混合组装的方法。
软件:canu
文章:Canu: scalable and accurate long-read assembly via adaptive k-mer weighting and repeat separation
杂志:Genome Research
时间:2017
引用:1220+
illumina混合pacbio组装:
./spades.py -1 [illumina1.fq] -2 [illumina2.fq] --pacbio [pacbio.fa] -t 52 -m 400 -o hybrid_pacbio
illumina混合nanopore组装:
./spades.py -1 [illumina1.fq] -2 [illumina2.fq] --pacbio [ont.fasta] -t 52 -m 400 -o hybrid_nanopore
结果
四、SPAdes组装二代
下载解压最新版
wget -c http://cab.spbu.ru/files/release3.15.2/SPAdes-3.15.2-Linux.tar.gz
tar -zxvf SPAdes-3.15.2-Linux.tar.gz
cd SPAdes-3.15.2-Linux/bin/
./spades.py --help
组装meta测序数据
/public/home/zzumgg03/huty/softwares/SPAdes-3.15.2-Linux/bin/./spades.py \
--meta -t 2 -m 10 \
-1 SRR341593_bowtie2.1.fastq \
-2 SRR341593_bowtie2.2.fastq \
-o out_dir
# m, memeory 250G by default
# t, thread 16 by default
spades只支持fastq文件,fasta文件不能用
五,组装质粒
质控
kneaddata \
-i ./rawdata/FC2282_FDSW210258126-1r_1.fq \
-i ./rawdata/FC2282_FDSW210258126-1r_2.fq \
-o ./cleandata/ \
--trimmomatic /route/miniconda3/envs/kneaddata/share/trimmomatic/ \
-t 4 \
--trimmomatic-options "SLIDINGWINDOW:4:20 MINLEN:50" \
--remove-intermediate-output
上下游序列一共1G数据量,spades比较吃内存,内存不够后期会报错,下面分配50G memory做组装。软件默认是250G mem 16 threads。
组装
$route/plasmidspades.py \
-1 ./cleandata/FC2282_FDSW210258126-1r_1_kneaddata.trimmed.1.fastq \
-2 ./cleandata/FC2282_FDSW210258126-1r_1_kneaddata.trimmed.2.fastq \
--threads 16 \
--memory 50 \
-o ./assembly/
结果