1.上Genome Announcements网站(https://mra.asm.org/)找一篇细菌基因组文章;找到文章记载的SRA号;
2.从SRA数据库上用prefetch下载该文件
prefetch SRR9937595
软件自动建立~/ncbi/public/sra文件夹,prefetch下载的sra文件存于其中3.Fastq-dump解压(--gzip 解压为gz文件,省空间)
fastq-dump --gzip --split-files SRR9937595.sra
4.Fastqc数据质量评价
fastqc SRR9937595_1.fastq.gz
fastqc SRR9937595_2.fastq.gz
5.用Trimmomatic进行数据的过滤
java -jar ~/04-Biosofts/Trimmomatic038/Trimmomatic-0.38/trimmomatic-0.38.jar PE -phred33 SRR9937595_1.fastq.gz SRR9937595_2.fastq.gz ./trim_out/output_forward_paired.fq.gz ./trim_out/output_forward_unpaired.fq.gz ./trim_out/output_reverse_paired.fq.gz ./trim_out/output_reverse_unpaired.fq.gz ILLUMINACLIP:/home/ada/04-Biosofts/Trimmomatic038/Trimmomatic-0.38/adapters/TruSeq2-PE.fa:2:30:10 SLIDINGWINDOW:5:20 LEADING:20 TRAILING:20 MINLEN:75
由于是双端测序(PE):输入两个序列文件,输出四个输出文件。
- PE -phred33 进行双端测序且将reads的碱基质量值体系设置为phred-33.
- ILLUMINACLIP:/home/ada/04-Biosofts/Trimmomatic038/Trimmomatic-0.38/adapters/TruSeq2-PE.fa:2:30:10
接头和引物序列在文件/home/ada/04-Biosofts/Trimmomatic038/Trimmomatic-0.38/adapters/TruSeq2-PE.fa中
seed允许2个碱基的错配
指定针对PE的palindrome clip模式下需要R1和R2之间至少多少比对分值(此处该比分的阈值为30,当大于等于该值时才会进行接头的切除)
结果如下
输出的四个文件如下:
- 对输出的两个paired文件再fastqc进行数据质量评价用于与未去接头的原序列对比
fastqc output_forward_paired.fq.gz
fastqc output_reverse_paired.fq.gz
得到的两个.html文件download下来查看6.Spades组装基因组草图
- 关于spades的参数参照https://www.jianshu.com/p/6926a2a22d24
spades.py --careful --only-assembler --pe1-1 SRR9937595_1.fastq.gz --pe1-2 SRR9937595_2.fastq.gz -o ./SPAdesout_9937595_new1
--careful 减少错误和插入的缺失,当添加此项时会消耗更多的时间
--only-assembler 只组装不做数据纠错
--pe1-1 表示第一个文库的reads1文件即forword文件
--pe1-2 表示第一个文库的reads2文件即reverse文件
注意该命令应在上述两个fastq文件所在的目录下才可执行!!!
-
由于数据太大此处报错为内存不够,将虚拟机设置中的系统内存大小适当增大即可。
7.Quast评价组装的基因组效果
在组装结果文件夹SPAdesout_9937595_new1下
quast.py contigs.fasta -o ./quast_out
由于上述组装过程中only-assembler没有进行error correction由于数据较大运行时间过长就不with error correction再次组装,故在此就不用quast.py compare_correction比较error correction对组装的结果