背景
许多短读reads组装的基因组被发现是不完整的并且包含错误。脊椎动物基因组计划一直在生产新的参考基因组组装,重点是尽可能完整和无错误,这需要利用长读长、HIC数据、新的组装算法和人工管理。相对于先前的基因组,对最近的参考资料进行更彻底的评估可以提供改进的概述。
结果
在这里,我们评估新的脊椎动物基因组参考相对于相同物种的先前组装,在两种情况下,相同的个体,包括哺乳动物(鸭嘴兽)、两只鸟(斑胸草雀、安娜的蜂鸟)和一条鱼(攀鲈) . 我们发现在之前的组装中高达 11% 的基因组序列完全缺失。在脊椎动物基因组计划斑胸草雀组装中,我们鉴定了八个新的富含 GC 和repeat-rich micro-chromosomes。缺失序列的影响偏向于富含 GC 的 5'-近端启动子和蛋白质编码基因和长链非编码 RNA 的 5' 外显子区域。26% 到 60% 的基因包含结构或序列错误,这些错误可能导致在使用以前的基因组组装时误解它们的功能。
结论
我们的研究结果揭示了regulatory landscapes和蛋白质编码序列,这些序列在以前的组装中被大大忽略了,现在出现在脊椎动物基因组计划参考基因组中。