组装细菌基因组

一、找到SRA号

1、在Genome Announcements(https://mra.asm.org/)上找一篇细菌基因组文章，并找到文章记载的SRA号；

T1.png

T2.png

2、从SRA数据库上搜索想要的SRA号

在SRA数据库搜索SRA号.png

二、用prefetch下载SRA文件

命令如下

prefetch SRR14651518

用prefetch下载文件.png

如下图为下载完成

下载完成.png

三、用Fastq-dump解压文件

fastq-dump可将sra文件解压成不同类型的文件，解压为gz文件可以节省空间

cd SRR14651518/
fastq-dump --gzip --split-files SRR14651518.sra
ll

Fastq-dump解压结果.png

四、用Fastqc进行质控

fastqc SRR14651518_1.fastq.gz SRR14651518_2.fastq.gz -o ~
# -o 输出到相应文件夹

会生成两个.html文件，将他们下载后打开就可以看到fastqc质控结果

生成的html文件.png

fastq生成文件结果.png

绿色表示”通过“，红色表示”未通过“，黄色表示”警告（不太好）“

（1）Basic Statistics

基本的数据统计包括文件名、文件类型、编码形式、总的序列数、质量差的序列，序列平均长度、GC含量

Basic Statistics.png

（2）Per base sequence quality

各位置碱基质量，横轴是碱基的位置，纵轴是质量分数，红线表示中位数，蓝色表示平均值，此图中有四分位数低于10或者中位数低于25，出现了”警告“

Per base sequence quality.png

（3）Per base sequence content

碱基分布，正常情况下A/T，C/G的含量是相近的，但是图中A/T比例与C/G比例相差超过了20%，出现错误

Per base sequence content.png

（4）Per sequence GC content

reads平均GC含量分布，红色为实际情况，蓝色为理论分布，图中的GC含量与理论分布相近

Per sequence GC content.png

（五）Adapter Content

表示接头含量，图中可以看出未除去接头

Adapter Content.png

五、去接头

使用Trimmomatic对原始数据过滤

mkdir trim_out
java -jar ~/Biosofts/Trimmomatic-0.38/trimmomatic-0.38.jar PE -phred33 /disk/201931107010220/SRR14651518/SRR14651518_1.fastq.gz /disk/201931107010220/SRR14651518/SRR14651518_2.fastq.gz ./trim_out/output_forward_paired.fq.gz ./trim_out/output_forward_unpaired.fq.gz ./trim_out/output_reverse_paired.fq.gz ./trim_out/output_reverse_unpaired.fq.gz ILLUMINACLIP:/disk/201931107010220/Biosofts/Trimmomatic-0.38/adapters/TruSeq2-PE.fa:2:30:10 SLIDINGWINDOW:5:20 LEADING:20 TRAILING:20 MINLEN:75

Trimmomatic去接头.png

六、Spades组装基因组草图

一定注意output_forward_paired.fq.gz所在的文件夹，在调用文件时确认路径！！！

spades.py --careful --pe1-1 /disk/201931107010220/trim_out/output_forward_paired.fq.gz  --pe1-2 /disk/201931107010220/trim_out/output_reverse_paired.fq.gz -o ./work

Spades组装基因组完成.png

七、Quast评价组装的基因组效果

找到contigs.fasta所在文件夹，否则错误，然后将生成的report.html文件，下载后打开即可得到结果

quast.py work/work/contigs.fasta -o  quast_SRR14651518

QUAST评价组装.png

评价结果.png