一、找到SRA号
1、在Genome Announcements(https://mra.asm.org/)上找一篇细菌基因组文章,并找到文章记载的SRA号;
2、从SRA数据库上搜索想要的SRA号
二、用prefetch下载SRA文件
命令如下
prefetch SRR14651518
如下图为下载完成
三、用Fastq-dump解压文件
fastq-dump可将sra文件解压成不同类型的文件,解压为gz文件可以节省空间
cd SRR14651518/
fastq-dump --gzip --split-files SRR14651518.sra
ll
四、用Fastqc进行质控
fastqc SRR14651518_1.fastq.gz SRR14651518_2.fastq.gz -o ~
# -o 输出到相应文件夹
会生成两个.html文件,将他们下载后打开就可以看到fastqc质控结果
绿色表示”通过“,红色表示”未通过“,黄色表示”警告(不太好)“
(1)Basic Statistics
基本的数据统计包括文件名、文件类型、编码形式、总的序列数、质量差的序列,序列平均长度、GC含量
(2)Per base sequence quality
各位置碱基质量,横轴是碱基的位置,纵轴是质量分数,红线表示中位数,蓝色表示平均值,此图中有四分位数低于10或者中位数低于25,出现了”警告“
(3)Per base sequence content
碱基分布,正常情况下A/T,C/G的含量是相近的,但是图中A/T比例与C/G比例相差超过了20%,出现错误
(4)Per sequence GC content
reads平均GC含量分布,红色为实际情况,蓝色为理论分布,图中的GC含量与理论分布相近
(五)Adapter Content
表示接头含量,图中可以看出未除去接头
五、去接头
使用Trimmomatic对原始数据过滤
mkdir trim_out
java -jar ~/Biosofts/Trimmomatic-0.38/trimmomatic-0.38.jar PE -phred33 /disk/201931107010220/SRR14651518/SRR14651518_1.fastq.gz /disk/201931107010220/SRR14651518/SRR14651518_2.fastq.gz ./trim_out/output_forward_paired.fq.gz ./trim_out/output_forward_unpaired.fq.gz ./trim_out/output_reverse_paired.fq.gz ./trim_out/output_reverse_unpaired.fq.gz ILLUMINACLIP:/disk/201931107010220/Biosofts/Trimmomatic-0.38/adapters/TruSeq2-PE.fa:2:30:10 SLIDINGWINDOW:5:20 LEADING:20 TRAILING:20 MINLEN:75
六、Spades组装基因组草图
一定注意output_forward_paired.fq.gz所在的文件夹,在调用文件时确认路径!!!
spades.py --careful --pe1-1 /disk/201931107010220/trim_out/output_forward_paired.fq.gz --pe1-2 /disk/201931107010220/trim_out/output_reverse_paired.fq.gz -o ./work
七、Quast评价组装的基因组效果
找到contigs.fasta所在文件夹,否则错误,然后将生成的report.html文件,下载后打开即可得到结果
quast.py work/work/contigs.fasta -o quast_SRR14651518