在我写的基因组survey介绍了如何通过jellyfish统计k-mer然后绘制k-mer分布图研究基因组的方法。由于最近又在搞基因组survey,又检索了一波资源,发现了一个分析工具,所以有了这篇教程。
GenomeScope 是2017年发表在 bioinformatic 的一个工具,最近一次更新在2018年2月16日。这个工具的目的就是处理一些高复杂度的基因组,比如说高杂合度(菠萝, >1%),或者是多倍体(8倍体的甘蔗),或者基因组非常的大(小麦是16G)。
它的作用就是通过分析k-mer count分布,给出基因组的一些基本信息:
- 基因组大小
- 基因组杂合度
- 基因组重复序列比例
注: 它无法预测倍性
软件安装
GenomeScope无需安装,它们提供了网页工具 http://genomescope.org/,我们只需要安装jellyfish即可。
conda install -c bioconda jellyfish
软件使用
首先,得获取k-mercount的分布。虽然jellyfish的用法可能比较复杂,但是这里只要用到两行命令即可,
jellyfish count -C -m 21 -s 1000000000 -t 10 *.fastq -o reads.jf
jellyfish histo -t 10 reads.jf > reads.histo
几个建议:
- K-mer设置为21(-m 21)
- 测序深度不得低于25X
- 建议illumina测序
- 如果服务器资源很多,可以增加线程数(-t)
之后将得到的reads.histo 上传到 http://qb.cshl.edu/genomescope/
选择continue之后,就会有如下信息,选择continue即可。
等待运行几分钟后,网页就会结果
kcov指的是杂合峰的覆盖度。
软件使用时的一个问题:
基因组预测大小和第一个页面中 Max kmer coverage 密切相关。我设置了1000和10000,基因组相差30M。 作者给出的解释是,GenomeScope默认会过滤掉出现1000次以上的kmers,避免细胞器基因组的影响,如果你觉得基因组小了,那么就把数值调整的大一点。