细菌基因组的组装

1.上Genome Announcements网站找一篇细菌基因组文章,找到文章记载的SRA号

文章截图

现在用SRR9209163这个SRA号做基因组的组装

2.从SRA数据库上用prefetch下载该文件

SRA文件下载

3.Fastq-dump解压

Fastq-dump
  • --gzip 可以输出gz格式,节省空间。
  • --split-files 将双端测序分为两份,放在不同的文件。

4.Fastqc质控,去接头

  • 用fastqc质量控制


    fastqc

    fastqc之后会生成HTML文件,打开之后观察结果:


    Per base sequence quality_1

    Per base sequence quality_2
  • 用Trimmomatic去接头
    刚开始用Trimmomatic去接头的时候,错将fastqc之后的压缩文件用于去接头,导致后面的步骤出错,之后检查时发现这一步虽然成功了,但截图显示Input Read Pairs中全是0%:


    出错

    修改之后再次尝试:


    成功

5.Spades组装基因组草图

out of memory

这个时候又出错了,上网查询相关信息得知可能是没有设置允许的内存,也就是memory太小,才会显示out of memory。


memory limit

仔细观察之后发现默认的memory limit是1G,可能有点小了。


添加参数

这个时候加上-m参数(单位为G),我设置了5个G,这下应该够了。
添加参数
成功

6.Quast评价组装的基因组效果

quast
成功

quast之后生成报告文件report.txt和report.html


report.txt
Cumulative length
GC content
Nx
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容