最近在使用老版本的基因组时,需要从V4转到V3,使用Picard的Liftover函数一直报错,经查询可能是基因组文件有问题。在经历多次探索,发现基因组文件不正确。
基因组文件格式一般是:fasta或者是fa.gz
在基因组组装时,是从contig组装成scaffold,然后在根据图谱,组装到Chromosome染色体上。
我把Scaffold当作Chromosome格式使用,程序自然会报错。
目前可以使用三代测序数据重新组装基因组,从scaffold到chromosome水平。
最新的工具:RaGOO(基于minimap2). github
论文
contig/scaffold 和 N50/N90
把测序的reads拼接,如果可以完全拼接起来,中间没有gap,则是contig.如果中间有gap,但是知道gap的长度,这样的序列称为scaffold.
contig N50 和scaffold N50
把contig或scaffold按照从大到小的顺序排列,长度达到基因组大小(所有contig或scaffold的长度)的50%时,那条contig/scaffold的长度,即为contig/scaffold N50. N50越大,说明基因组组装的质量越高。同理还有N90,即达到基因组大小90%时的contig/scaffold的长度。