介绍这个软件的概念前,我需要先解释一个概念最近共同祖先时间(the time since the most recent common ancestor,TMRCA)。当我们在群体获得1个基因的两种等位基因序列或同源基因序列的时候,我们可以推测这些高度相似的序列之间最早应该起源于相同的祖先序列,只是在进化分化中随机朝着不同的方向变异,才形成了不同的序列。
我们根据序列间的差异度(核酸替代率)和物种突变速率,就可以推算两条序列的分化时间。这个分化时间就是这两条序列的TMRCA。
这个概念换到1个二倍体生物的同源染色体间,就体现为1个基因的两个等位基因之间存在差异,但它们最初也应该起源于相同祖先携带的同一序列。可以想象一下以下的情境:
(1)在1万前的新石器时期,1个母亲M生下了2个孩子。这两个孩子可以携带某个相同的母亲基因X0序列。
(2)两个孩子又各自有自己的后代,那么起源于母亲M的序列又继续遗传给后代;
(3)这个来源母亲M的基因序列就被散布到人群中,且随着时间的推移,各个基因拷贝开始累积随机突变,出现序列的差异,形成了各种各样的基因型。
(4)2018年两个青年男女恋爱结婚,恰好他们都各自携带了来自祖先母亲M的两种变异的基因拷贝X1和X2(都起源于基因X0)。今年他们生下1个baby,恰好把X1和X2都遗传给了这个小baby。
(5)基因X1和X2等位之间存在差异,那么利用序列差异、突变速率,就可以推算X1和X2开始分化的时间,即它们距离最近共同祖先序列基因X0 (母亲M所处的时代)的时间。这就是这两条等位基因序列的TMRCA。
PSMC的分析原理,就是基于全基因组的TMCRA分析。该方法的基本原理如下图:
(1)将二倍体生物通过重测序获得的基因型,看成来源群体的两份单倍体基因型型(单倍型)。
(2)由于染色体在进化过程中不断重组,这两份单倍型实际上各个区段的差异度不同。有些区段等位基因间比较相似,因此来源的共同祖先时间较短(TMRCA),就是两个单倍型之间分化于较早的时间。有些区段差异度比较大,则其对应的TMRCA较长。
(3)通过分析全基因组TMRCA的分布(The distribution of TMRCA),就可以对各个片段进行归类。比如TMRCA1万年前左右的占1%,2万年前左右的占0.8%……基因组中染色体片段对的TMRCA构成其实和当时对应的那个时代的有效群体大小相关,因此根据TMRCA的分布比例,就可以推算该种群在历史上各个时期的有效群体大小。
图1 一个个体两个同源染色体片段间的TMRCA分布示意图
这里需要补充说明一点:基因组中属于某个TMRCA时期的片段的比例,应该与那个进化时期的有效群体大小成反比。比如说,如果你发现基因组中共同祖先来自2万年前的片段比例越高,那么说明2万年这个时期该群体的人口规模越小。其原因可以这样理解:
图2 最终分析结果效果图
(a)有效群体大小越小,本质上群体刚刚经历了遗传多样性降低。这会导致很多等位基因类型在群体中消失。所以更古老的(TMRCA值更大)分化过程中的等位基因比例就降低了。
(b) 未来有效群体大小扩大,则很多等位的分化时期就起源于这个群体规模小的时期。所以,有效群体大小小的时期,对应共祖回溯(TMRCA属于这个时期)的片段比例高。
反之,TMRCA属于某个时期的片段比例越少,则那个时期的有效群体大小越大。
PSMC是非常巧妙的一种思路。因为之前推算群体历史有效规模,都是基于单一等位基因检测大量个体,然后通过分析两两等位基因间TMRCA来估算。这样有两个问题:
(1)个别基因可能受选择,导致突变速率偏离这个群体的均值,而产生误差;
(2)检测大量个体需要更多采样的工作量。
PSMC创造性的转变思路,把传统的多个个体基因组同一基因采样,替换为PSMC中的1个个体基因组多个基因组位置采样,最终都获得了群体中TMRCA的分布数据。例如,如果一个重组片段是10k,人类基因组3个G就相当于3万个片段的采样。
所以,PSMC相比传统的方法有两个优势:
(1)全基因组水平的采样,减少了个别基因受进化选择导致误差;
(2)1个个体就可以搞定海量的等位采样,大大减少了工作量。
所以,PSMC的方法,主要赢在思路。至于用隐马尔可夫链的方法,去推算重组片段的位置,解TMRCA的分布,对于非数学背景的我根本看不懂,所以干脆略过了。
后续PSMC的改进算法,其实都是在PSMC这个大思路内(利用全基因组数据推算TMRCA)的算法优化,在之后的推送我们还会简要介绍。但从拍案叫绝的程度,还是PSMC最了不起。
https://www.sohu.com/a/364583721_278730