组装细菌基因组

1、下载SRA文件

以SRR11951410为例，从SRA数据库上用prefetch下载sra文件：

prefetch SRR11951410

2、Fastq-dump解压

cd SRR11951410/
fastq-dump --gzip --split-files SRR11951410.sra

3、Fastqc质控

fastqc SRR11951410_1.fastq.gz
fastqc SRR11951410_2.fastq.gz

FastQC报告
打开：SRR6466501_1_fastqc.html、SRR6466501_2_fastqc.html

4、Trimmomatic去接头

Trimmomatic 是一个广受欢迎的Ilumina平台数据过滤工具。
处理数据速度快，主要用来去除Illumina 平台的Fastq序列中的接头，并根据碱基质量值对Fastq进行修剪。
支持多线程，有两种过滤模式，分别对应SE和PE测序数据。

java -jar Biosofts/Trimmomatic-0.38/trimmomatic-0.38.jar Pforward_unpaired.fq.gz ./output_reverse_paired.fq.gz ./output_reverse_unpaired.fq.gz ILLUTRAILING:20 MINLEN:75

5、SPAdes组装基因组草图

SPAdes:
➢由俄罗斯科学院圣彼得堡理工大学计算生物学实验室开发，是目前评价最好的拼接工具之一。
➢主要用于基因组拼接，也可用于一、二、三代测序的混合组装;还可用于转录组从头组装(rnaSPAdes)和宏基因组拼接(metaSPAdes) 。

spades.py --careful --pe1-1 SRR11951410_1.fastq.gz --pe1-2 SRR11951410_2.fastq.gz -o ./SPAdesout_SRR11951410

报错：Not enough memory to run BayesHammer，内存不足。

解决：尝试使用seqtk抽取100000条。
（1）解压

gunzip -c output_forward_paired.fq.gz >output_forward_paired.fq
gunzip -c output_reverse_paired.fq.gz >output_reverse_paired.fq

(2)抽取100000条

seqtk sample -s 60 output_forward_paired.fq 100000 >seqtksample1_new.fq
seqtk sample -s 60 output_reverse_paired.fq 100000 >seqtksample2_new.fq

(3)用wc查看，可对比前后文件，判断是否抽取成功

wc -l output_forward_paired.fq
wc -l seqtksample1_new.fq

(4)然后，再次尝试SPAdes运行：

spades.py --careful --pe1-1 seqtksample1_new.fq --pe1-2 seqtksample2_new.fq -o ./SPAdesout.SRR11951410

6、Quast评价组装的基因组效果

对Spades结果进行评价：

quast.py SPAdesout.SRR11951410/contigs.fasta -o SPAdesout.SRR11951410/quast_out

查看输出的文件夹quast_out：

最后本地下载quast报告 report.html，并查看：