SPAdes组装二代、三代测序数据

导读

SPAdes是2012年发表在Journal of Computational Biology上的一篇文章提出的二代测序组装软件,是目前引用量已经达到6200+,在宏基因组组装软件中引用量最高【其他组学不清楚了】。SPAdes不仅推出rnaSPAdes【转录组】、metaSPAdes【宏基因组】、plasmindSPAdes【质粒】,还推出了可以用于二代、三代测序数据混合组装的hybrid SPAdes功能。SPAdes虽然在速度、效率上比不过megahit,但SPAdes内部含校错功能,组装更加准确,也因此适合二代、三代混合组装。

官网:http://cab.spbu.ru/software/spades/

一、SPAdes相关的文章

【1】SPAdes

文章:SPAdes: a new genome assembly algorithm and its applications to single-cell sequencing
杂志:J Comput Biol.
时间:2012
引用:6241+

【2】plasmidSPAdes

杂志:plasmidSPAdes: assembling plasmids from whole genome sequencing data
杂志:Bioinformatics
时间:2016

【3】hybridSPAdes

文章:hybridSPAdes: an algorithm for hybrid assembly of short and long reads
杂志:Bioinformatics
时间:2016

【4】metaSPAdes

文章:metaSPAdes: a new versatile metagenomic assembler
杂志:Genome Res.
时间:2017

【5】rnaSPAdes

文章:rnaSPAdes: a de novo transcriptome assembler and its application to RNA-Seq data
杂志:Gigascience
时间:2019

二、下载、安装SPAdes

wget -c http://cab.spbu.ru/files/release3.14.0/SPAdes-3.14.0-Linux.tar.gz
# 下载目前最新版spades3.14.0
# 下载解压即可使用

meta rna plasmind都在里面了,hybrid在spades中使用混合组装参数即可【在下面了】

bin目录下的可执行文件

conda安装

conda create -n assembly
conda activate assembly
conda install spades

三、SPAdes混合组装二代、三代

在软件canu文章的补充材料中看到了SPAdes混合组装的方法。

软件:canu
文章:Canu: scalable and accurate long-read assembly via adaptive k-mer weighting and repeat separation
杂志:Genome Research
时间:2017
引用:1220+

illumina混合pacbio组装:

./spades.py -1 [illumina1.fq] -2 [illumina2.fq] --pacbio [pacbio.fa] -t 52 -m 400 -o hybrid_pacbio

illumina混合nanopore组装:

./spades.py -1 [illumina1.fq] -2 [illumina2.fq] --pacbio [ont.fasta] -t 52 -m 400 -o hybrid_nanopore

结果

四、SPAdes组装二代

下载解压最新版

wget -c http://cab.spbu.ru/files/release3.15.2/SPAdes-3.15.2-Linux.tar.gz
tar -zxvf SPAdes-3.15.2-Linux.tar.gz
cd SPAdes-3.15.2-Linux/bin/
./spades.py --help

组装meta测序数据

/public/home/zzumgg03/huty/softwares/SPAdes-3.15.2-Linux/bin/./spades.py \
--meta -t 2 -m 10 \
-1 SRR341593_bowtie2.1.fastq \
-2 SRR341593_bowtie2.2.fastq \
-o out_dir
# m, memeory 250G by default
# t, thread 16 by default

spades只支持fastq文件,fasta文件不能用

五,组装质粒

质控

kneaddata \
-i ./rawdata/FC2282_FDSW210258126-1r_1.fq \
-i ./rawdata/FC2282_FDSW210258126-1r_2.fq \
-o ./cleandata/ \
--trimmomatic /route/miniconda3/envs/kneaddata/share/trimmomatic/ \
-t 4 \
--trimmomatic-options "SLIDINGWINDOW:4:20 MINLEN:50" \
--remove-intermediate-output

上下游序列一共1G数据量,spades比较吃内存,内存不够后期会报错,下面分配50G memory做组装。软件默认是250G mem 16 threads。

组装

$route/plasmidspades.py \
-1 ./cleandata/FC2282_FDSW210258126-1r_1_kneaddata.trimmed.1.fastq \
-2 ./cleandata/FC2282_FDSW210258126-1r_1_kneaddata.trimmed.2.fastq \
--threads 16 \
--memory 50 \
-o ./assembly/

结果

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容