组装细菌基因组

1、下载SRA文件

以SRR11951410为例,从SRA数据库上用prefetch下载sra文件:

prefetch SRR11951410

2、Fastq-dump解压

cd SRR11951410/
fastq-dump --gzip --split-files SRR11951410.sra

3、Fastqc质控

fastqc SRR11951410_1.fastq.gz
fastqc SRR11951410_2.fastq.gz

FastQC报告
打开:SRR6466501_1_fastqc.html、SRR6466501_2_fastqc.html

4、Trimmomatic去接头

Trimmomatic 是一个广受欢迎的Ilumina平台数据过滤工具。
处理数据速度快,主要用来去除Illumina 平台的Fastq序列中的接头,并根据碱基质量值对Fastq进行修剪。
支持多线程,有两种过滤模式,分别对应SE和PE测序数据。

java -jar Biosofts/Trimmomatic-0.38/trimmomatic-0.38.jar Pforward_unpaired.fq.gz ./output_reverse_paired.fq.gz ./output_reverse_unpaired.fq.gz ILLUTRAILING:20 MINLEN:75

5、SPAdes组装基因组草图

SPAdes:
➢由俄罗斯科学院圣彼得堡理工大学计算生物学实验室开发,是目前评价最好的拼接工具之一。
➢主要用于基因组拼接,也可用于一、二、三代测序的混合组装;还可用于转录组从头组装(rnaSPAdes)和宏基因组拼接(metaSPAdes) 。

spades.py --careful --pe1-1 SRR11951410_1.fastq.gz --pe1-2 SRR11951410_2.fastq.gz -o ./SPAdesout_SRR11951410

报错:Not enough memory to run BayesHammer,内存不足。

解决:尝试使用seqtk抽取100000条。
(1)解压

gunzip -c output_forward_paired.fq.gz >output_forward_paired.fq
gunzip -c output_reverse_paired.fq.gz >output_reverse_paired.fq

(2)抽取100000条

seqtk sample -s 60 output_forward_paired.fq 100000 >seqtksample1_new.fq
seqtk sample -s 60 output_reverse_paired.fq 100000 >seqtksample2_new.fq

(3)用wc查看,可对比前后文件,判断是否抽取成功

wc -l output_forward_paired.fq
wc -l seqtksample1_new.fq

(4)然后,再次尝试SPAdes运行:

spades.py --careful --pe1-1 seqtksample1_new.fq --pe1-2 seqtksample2_new.fq -o ./SPAdesout.SRR11951410

6、Quast评价组装的基因组效果

对Spades结果进行评价:

quast.py SPAdesout.SRR11951410/contigs.fasta -o SPAdesout.SRR11951410/quast_out

查看输出的文件夹quast_out:

最后本地下载quast报告 report.html,并查看:

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容