1.上Genome Announcements网站(https://mra.asm.org/)找一篇细菌基因组文章;找到文章记载的SRA号
SRR为14581598
2.从SRA数据库上用prefetch下载该文件
prefetch SRR14581598
运行结果为
3.Fastq-dump解压;
fastq-dump --gzip --split-files SRR14581598/SRR14581598.sra
4.Fastqc质控;去接头
fastqc SRR14581598_1.fastq.gz
fastqc SRR14581598_2.fastq.gz
可以将生成的html文件下载查看
横坐标表示每个每个碱基的位置,纵坐表示碱基质量值,中间的红线表示中位数,蓝色的线代表平均值;
背景色从上到在下依次为green, orange, red; 表示碱基质量的三种标准:very good, reasonable, poor;将碱基质量分成3个不同的标准。
Trimmomatic进行过滤
java -jar ~/Biosofts/Trimmomatic-0.38/trimmomatic-0.38.jar PE -phred33 SRR14581598_1.fastq.gz SRR14581598_2.fastq.gz ./trim_out/output_forward_paired.fq.gz ./trim_out/output_forward_unpaired.fq.gz ./trim_out/output_reverse_paired.fq.gz ./trim_out/output_reverse_unpaired.fq.gz ILLUMINACLIP:/disk/teaching/Biosofts/Trimmomatic-0.38/adapters/TruSeq2-PE.fa:2:30:10 SLIDINGWINDOW:5:20 LEADING:20 TRAILING:20 MINLEN:75
ls trim out/
5.Spades组装基因组草图;
spades.py --careful --pe1-1 SRR14581598_1.fastq.gz --pe1-2 SRR14581598_2.fastq.gz -o ./SPAdesout
6.Quast评价组装的基因组效果
conda activate python27
quast.py SPAdesout/contigs.fasta -o quast_out
查看生成的文件
ll quast_out
下载整个文件 quast_out
打开 report.html 查看结果
由report结果得到:总基因组长度为2145540 bp,N50值为
42635bp,GC含量为37.86%
序列总长度合理、N50等值越高长,组装结果越好。