组装细菌基因组

第一步:上Genome Announcements网站(https://mra.asm.org/)找一篇细菌基因组文章;找到文章记载的SRA号;

![K]E2COFL60T1S2}WAH8`H.png](https://upload-images.jianshu.io/upload_images/19791135-78baa1eb7cd7ffdc.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

image.png
第二步:从SRA数据库上用prefetch下载该文件
#先创建一个文件夹
mkdir bacterial_genome
cd bacterial_genome
prefetch SRR10028728

运行结果:
![3GDXY9CD_2)]PQ%OLT@AMVG.png](https://upload-images.jianshu.io/upload_images/19791135-16051f78ec1ec957.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

第三步: Fastq-dump解压
fastq-dump ---gzip -split-files ~/ncbi/public/sra/SRR10028728.sra 

结果如下:


CC{(XYWU@C12CL@RHDW}2JU.png
第四步:Fastqc质控,Trimmomatic过滤去接头,再用fastqc看看质量
fastqc SRR10028728_1.fastq.gz
fastqc SRR10028728_2.fastq.gz
java -jar ~/Biosofts/Trimmomatic038/Trimmomatic-0.38/trimmomatic-0.38.jar PE -phred33 SRR10028728_1.fastq.gz SRR10028728_2.fastq.gz ./output_forward_paired.fq.gz ./output_forward_unpaired.fq.gz ./output_reverse_paired.fq.gz ./output_reverse_unpaired.fq.gz ILLUMINACLIP:/home/yuan/Biosofts/Trimmomatic038/Trimmomatic-0.38/adapters/TruSeq2-PE.fa:2:30:10 SLIDINGWINDOW:5:20 LEADING:20 TRAILING:20 MINLEN:75
fastqc output_forward_paired.fq.gz

运行结果


`O7VX_8@4PCGP$)IKEX}E@F.png

![2D4JUPT9CU59($PGNS8WW9.png
到图形界面可查看两次得到的Fastqc结果

质控结果1.png

out.png

对比发现Total Sequences和序列长度都变短了,说明一些序列已经被Trimmomatic过滤了。

第五步:Spades组装基因组草图
#创建一个输出文件夹
mkdir SPAdes_out_SRR10028728
spades.py --careful --pe1-1 SRR10028728_1.fastq.gz --pe1-2 SRR10028728_2.fastq.gz -o ./SPAdes_out_SRR10028728

出现问题,提示(out of memory)内存不足,于是我更改了一下系统内存,然后重启


image.png

重新执行,又出错了。。。


image.png

好像还是数据太大了,用seqtk抽出100000条试试。
#先解压
gunzip -c output_forward_paired.fq.gz >output_forward_paired.fq
gunzip -c output_reverse_paired.fq.gz >output_reverse_paired.fq
#抽取10000条
seqtk sample -s 60 output_forward_paired.fq 100000 >seqtksample_100000.fq
seqtk sample -s 60 output_reverse_paired.fq 100000 >seqtksample2_100000.fq
#抽取后可用wc查看前后行数差别判断是否成功,这里省略
#然后再次执行
 spades.py --pe1-1 seqtksample_100000.f q --pe1-2 seqtksample2_100000.fq -o ./SPAdes_out_SRR10028728

结果如下


spades结果.png

出现了Warnings,不过不影响,终于完成了这一步

第六步:Quast评价组装的基因组效果
 quast.py ~/bacterial_genome/SPAdes_out_SRR10028728/contigs.fasta -o ~/SPAdes_out_SRR10028728/quast_out
Quast结果.png

在图形界面找到最终结果图


最终结果.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。