在GitHub上向作者请教这个问题后,作者的答复是:旧版Canu其实没有真正的检测到bubble,因此contig其实包含着buble,建议后续分析要用purge_dups 处理这些冗余序列
我最早使用的Canu版本是1.6,而现在已经是2.0,以往的改动基本上都是增加一些新功能,提高组装准确性,以及一些默认参数的修改用于提高组装速度,还有就是常规的bug修复。
例如1.8版本的更新日志更改了Nanopore的错误率,提高了10倍左右的组装速度,同时完整地支持了trio-binning
1.9版则是开始PacBio的HiFi数据,同时极大的提高了相互比对的速度
对于这些修改,我们都可以直接将组装得到的contig用于后续的分析。而2.0版本的更新则把我“坑”了
2.0做了许多的优化用来保证contig组装更长更准确,其中有一个就是在contig构建期间会检测bubbles, 防止他们打断杂合基因组
于是在我最近组装一个新的物种的时候,就发现染色体明显偏大,我对此很不解。直到我用新的Canu组装该物种的时候发现,前后两次组装结果中在bubbles这一栏中有明显差别。1.8版本是0,2.0版本则是136,约6M基因组大小。
我觉得这可能是个例,于是我查看了之前所有组装物种的日志,发现bubble这一栏都是0(即便是杂合基因组)。
这意味着,我们用2.0版本装的基因组不能无脑的用于下游的HiC,而是需要先把bubble这部分序列给过滤掉,不然你的基因组是偏离实际值。