第一步:上Genome Announcements网站(https://mra.asm.org/)找一篇细菌基因组文章;找到文章记载的SRA号;
![K]E2COFL60T1S2}WAH8`H.png](https://upload-images.jianshu.io/upload_images/19791135-78baa1eb7cd7ffdc.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
第二步:从SRA数据库上用prefetch下载该文件
#先创建一个文件夹
mkdir bacterial_genome
cd bacterial_genome
prefetch SRR10028728
运行结果:
![3GDXY9CD_2)]PQ%OLT@AMVG.png](https://upload-images.jianshu.io/upload_images/19791135-16051f78ec1ec957.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
第三步: Fastq-dump解压
fastq-dump ---gzip -split-files ~/ncbi/public/sra/SRR10028728.sra
结果如下:
第四步:Fastqc质控,Trimmomatic过滤去接头,再用fastqc看看质量
fastqc SRR10028728_1.fastq.gz
fastqc SRR10028728_2.fastq.gz
java -jar ~/Biosofts/Trimmomatic038/Trimmomatic-0.38/trimmomatic-0.38.jar PE -phred33 SRR10028728_1.fastq.gz SRR10028728_2.fastq.gz ./output_forward_paired.fq.gz ./output_forward_unpaired.fq.gz ./output_reverse_paired.fq.gz ./output_reverse_unpaired.fq.gz ILLUMINACLIP:/home/yuan/Biosofts/Trimmomatic038/Trimmomatic-0.38/adapters/TruSeq2-PE.fa:2:30:10 SLIDINGWINDOW:5:20 LEADING:20 TRAILING:20 MINLEN:75
fastqc output_forward_paired.fq.gz
运行结果
![2D4JUPT9CU59($PGNS8WW9.png
到图形界面可查看两次得到的Fastqc结果
对比发现Total Sequences和序列长度都变短了,说明一些序列已经被Trimmomatic过滤了。
第五步:Spades组装基因组草图
#创建一个输出文件夹
mkdir SPAdes_out_SRR10028728
spades.py --careful --pe1-1 SRR10028728_1.fastq.gz --pe1-2 SRR10028728_2.fastq.gz -o ./SPAdes_out_SRR10028728
出现问题,提示(out of memory)内存不足,于是我更改了一下系统内存,然后重启
重新执行,又出错了。。。
好像还是数据太大了,用seqtk抽出100000条试试。
#先解压
gunzip -c output_forward_paired.fq.gz >output_forward_paired.fq
gunzip -c output_reverse_paired.fq.gz >output_reverse_paired.fq
#抽取10000条
seqtk sample -s 60 output_forward_paired.fq 100000 >seqtksample_100000.fq
seqtk sample -s 60 output_reverse_paired.fq 100000 >seqtksample2_100000.fq
#抽取后可用wc查看前后行数差别判断是否成功,这里省略
#然后再次执行
spades.py --pe1-1 seqtksample_100000.f q --pe1-2 seqtksample2_100000.fq -o ./SPAdes_out_SRR10028728
结果如下
出现了Warnings,不过不影响,终于完成了这一步
第六步:Quast评价组装的基因组效果
quast.py ~/bacterial_genome/SPAdes_out_SRR10028728/contigs.fasta -o ~/SPAdes_out_SRR10028728/quast_out
在图形界面找到最终结果图