什么是泛基因组?
2005年,Tettelin等人提出了微生物泛基因组概念(pangenome,pan源自希腊语‘παν’,全部的意思),泛基因组即某一物种全部基因的总称。2009 年,Li等人首次采用新全基因组组装方法对多个人类个体基因组进行拼接,发现了个体独有的DNA序列和功能基因,并首次提出了“人类泛基因组”的概念,即人类群体基因序列的总和。2009 年泛基因组测序首次应用于人类基因组学研究;2013 年泛基因组测序应用于动植物研究领域。
如图,泛基因组进而可以分为,核心基因组(core genome)和可变基因组 (variable genome)。核心基因指的是,在所有动植物品系或者菌株中都存在的基。可变基因组是指,在1个以及1个以上的动植物品系或者菌株中存在的基因。如果某个基因,仅存在某一个动植物品系或者菌株中,该基因还可以细分为品系或者菌株特有基因。一般来说,核心基因组控制着生命体基本生成代谢的功能。另外,结构变异中的存在/缺失变化(presnece/absence variation)是泛基因组的重点研究对象,因为可变基因组可能就是使个体产生不同性状(抗病性,抗寒性等)的原因。
为什么我们要开展泛基因组测序?
在漫长的进化过程中,由于地域因素,环境因素等的影响,每个个体都形成了极其特别的遗传性状,单一个体的基因组已经不能涵盖这个物种的所有遗传信息,另外一个原因,由于基因测序变得更加廉价,为近年来火爆的泛基因组的研究提供了可能性。
泛基因组是近年来比较流行的一种研究方向,通过对不同品种基因组进行测序,组装,然后将组装好的基因序列进行整合注释,进而获取这个物种全部的遗传信息并且对每一个个体间遗传变异信息进行解析。
技术路线
组装技术对比
目前比较流行的研究方法与三种:K-mer based assembly,De novo assembly和 iterative assembly)
下面主要给大家讲解讲:De novo assembly method 和 iterative assembly。
De novo assembly method
分别对多个个体进行,De novo assembly,然后将所得的每个个体的assembly与reference基因组mapping,找出不同unmapped的区域,再进行进一步的assembly,然后注释。此方法需要更多的电脑资源,因为需要对每一个个体进行de novo assembly,然后还需要全基因组比对。
Iterative (迭代)assembly
相当于一种迭代的方式,将每一个种系map to reference,然后找出unmapped的部分进行assembly,得到新的基因序列进而扩展原有的reference。一步一步这样迭代,直到所有的种系都处理完。最后建立起的泛基因组,再进行注释。这种方法,相对需要更少电脑资源,但是可能会产生更多的小片段。
应用
泛基因组测序是运用高通量测序及生物信息分析手段,针对不同亚种/个体材料进行测序及泛组装,构建泛基因组图谱,丰富该物种的遗传信息。泛基因组测序不仅可以获得多个基因组,完善该物种的基因集,还可以获得种群甚至个体特有的DNA序列和功能基因信息,为系统进化分析及功能生物学研究奠定基础。
选择不同亚种材料进行泛基因组测序,可以研究物种的起源及演化等重要生物学问题;选择野生种和栽培种等不同特性的种质资源进行泛基因组测序,可以发掘重要性状相关的基因资源,为科学育种提供指导;选择不同生态地理类型的种质资源进行泛基因组测序,可以开展物种的适应性进化,外来物种入侵性等热门科学问题的研究,为分子生态学等学科提供新的研究手段。
还有我认为,泛基因组还可以应用到寻找snps。
- 对比单一的reference基因,可以有效提高可发现的snps数量
- 用泛基因组去calling snps 意味着你可以节省很多电脑资源和分析时间。(正常snap calling需要比对到不同的个体上,但如果通过泛基因组去calling snps,就可以一步到位,因为这个pangenome 相当于所有个体的集合。另外,这也意味着,你得出的snps 组不需要整合(传统的snp calling需要整合,因为需要比对到不同个体上)
- 还有一个好处就是,因为pangenome 包括了一步presence/absence variations 的分析,我们可以区别出这种snp是属于核心基因的,还是属于可变基因的。然后,再结合你表现型的数据,这对利用snp提高农作物产量是很有意义的。
参考文献:
- Golicz, Agnieszka A., Jacqueline Batley, and David Edwards. "Towards plant pangenomics." Plant biotechnology journal 14.4 (2016): 1099-1105.
- Golicz, Agnieszka A., et al. "The pangenome of an agronomically important crop plant Brassica oleracea." Nature communications 7 (2016): 13390.
- Hurgobin, Bhavna, and David Edwards. "SNP Discovery Using a Pangenome: Has the Single Reference Approach Become Obsolete?." Biology 6.1 (2017): 21.
代表文献
- Li, Ying-hui, et al. "De novo assembly of soybean wild relatives for pan-genome analysis of diversity and agronomic traits." Nature Biotechnology32.10 (2014): 1045-1052.
- Maretty, Lasse, et al. "Sequencing and de novo assembly of 150 genomes from Denmark as a population reference." Nature (2017).