序言
作为刚刚写完一些术语的解答的我,觉得应该进一步的了解一下进化相关的数学模型。其中包括但不仅仅局限与Tajima's D中经常提到neutral model
,当然还有另外一个则是经常在探究是否是neutral还是adaptive进化时提到的Coalescent theory
,这篇文章打算全面的学习一下这东西。
介绍Coalescent theory
从词的本身的含义上就大概知道这一整个词的意思,Coalescent 本身就是合并、联合的意思,所以该理论则是为了将现有的个体,按照一定的理论依据,进行合并,从而得到共同祖先的过程。
该模型最早在1980年开始提出并发展,但主要贡献者为John Kingman。
在最简单的假设下,则是没有重组,自然选择,基因流动,种群结构变化,那么每一个变异都是同等机会的从上一代传到下一代。
该模型中的变异来自于
- 父代到子代时随机的传递
- allele随机发生的突变
由于这个数学模型阐述的是非常原始的一个问题,“如何从祖先到现存的观测的个体?”所以通过该理论,可以进行模拟和验证其它模型,所以在很多的模型中也会涉及到这个理论的一部分内容。
理论内容
-
Time to coalescence
对于两个株系来说,计算其来自共同祖先的概率,即计算共享一个父代DNA序列的概率。由于基本假设中,有效种群大小没变,加上对于二倍体的群落来说,某个locus存在2Ne个拷贝,所以父代也有2Ne个,在随机交配假设下,两个alleles来自同一个父代拷贝的几率是1/2Ne,相应的,不来自同个父代拷贝的则是1-1/(2Ne)
在接下去的每一代中,coalescence的概率呈几何分布即计算N次投硬币时的概率分布
,即如下
而由于几何分布的特性,当Ne足够的大时,该分布会近似于指数分布。由于这是一种数学上的转化,转化后该指数分布就拥有相对应的期望与方差,但虽然拥有一个期望时间是2Ne
,但其实真实的coalescence tim还有更大的variantion。注意的是其中的coalescent时间的单位是代,如果要转化成为真实时间的话,需要再进行乘上平均传代时间。 -
Neutral variation
除了计算coalescent时间,同时也可以建模估计来自遗传漂变和突变的DNA序列上的变异。在此称之为平均杂合性(mean heterozygosity),通过计算某一代中发生的突变的概率,除以这一代发生任何事件(包括突变和合并)的概率。
一个事件是突变的概率,则是一个突变出现在两个lineages之一的几率,即2μ(2 倍的突变率)
分母就是突变和合并的概率之和。
其中θ则为pairwise的差异,由neutral model得出。对于θ>=1的情况,则代表大部分的allele pairs在核苷酸序列上至少有一个差异(difference)。