2023-09-21 PSMC可以评估有效群体大小的原因

介绍这个软件的概念前,我需要先解释一个概念最近共同祖先时间(the time since the most recent common ancestor,TMRCA)。当我们在群体获得1个基因的两种等位基因序列或同源基因序列的时候,我们可以推测这些高度相似的序列之间最早应该起源于相同的祖先序列,只是在进化分化中随机朝着不同的方向变异,才形成了不同的序列。

我们根据序列间的差异度(核酸替代率)和物种突变速率,就可以推算两条序列的分化时间。这个分化时间就是这两条序列的TMRCA。

这个概念换到1个二倍体生物的同源染色体间,就体现为1个基因的两个等位基因之间存在差异,但它们最初也应该起源于相同祖先携带的同一序列。可以想象一下以下的情境:

(1)在1万前的新石器时期,1个母亲M生下了2个孩子。这两个孩子可以携带某个相同的母亲基因X0序列。

(2)两个孩子又各自有自己的后代,那么起源于母亲M的序列又继续遗传给后代;

(3)这个来源母亲M的基因序列就被散布到人群中,且随着时间的推移,各个基因拷贝开始累积随机突变,出现序列的差异,形成了各种各样的基因型。

(4)2018年两个青年男女恋爱结婚,恰好他们都各自携带了来自祖先母亲M的两种变异的基因拷贝X1和X2(都起源于基因X0)。今年他们生下1个baby,恰好把X1和X2都遗传给了这个小baby。

(5)基因X1和X2等位之间存在差异,那么利用序列差异、突变速率,就可以推算X1和X2开始分化的时间,即它们距离最近共同祖先序列基因X0 (母亲M所处的时代)的时间。这就是这两条等位基因序列的TMRCA。

PSMC的分析原理,就是基于全基因组的TMCRA分析。该方法的基本原理如下图:

(1)将二倍体生物通过重测序获得的基因型,看成来源群体的两份单倍体基因型型(单倍型)。

(2)由于染色体在进化过程中不断重组,这两份单倍型实际上各个区段的差异度不同。有些区段等位基因间比较相似,因此来源的共同祖先时间较短(TMRCA),就是两个单倍型之间分化于较早的时间。有些区段差异度比较大,则其对应的TMRCA较长。

(3)通过分析全基因组TMRCA的分布(The distribution of TMRCA),就可以对各个片段进行归类。比如TMRCA1万年前左右的占1%,2万年前左右的占0.8%……基因组中染色体片段对的TMRCA构成其实和当时对应的那个时代的有效群体大小相关,因此根据TMRCA的分布比例,就可以推算该种群在历史上各个时期的有效群体大小。


图1 一个个体两个同源染色体片段间的TMRCA分布示意图

这里需要补充说明一点:基因组中属于某个TMRCA时期的片段的比例,应该与那个进化时期的有效群体大小成反比。比如说,如果你发现基因组中共同祖先来自2万年前的片段比例越高,那么说明2万年这个时期该群体的人口规模越小。其原因可以这样理解:

图2 最终分析结果效果图

(a)有效群体大小越小,本质上群体刚刚经历了遗传多样性降低。这会导致很多等位基因类型在群体中消失。所以更古老的(TMRCA值更大)分化过程中的等位基因比例就降低了。

(b) 未来有效群体大小扩大,则很多等位的分化时期就起源于这个群体规模小的时期。所以,有效群体大小小的时期,对应共祖回溯(TMRCA属于这个时期)的片段比例高。

反之,TMRCA属于某个时期的片段比例越少,则那个时期的有效群体大小越大。

PSMC是非常巧妙的一种思路。因为之前推算群体历史有效规模,都是基于单一等位基因检测大量个体,然后通过分析两两等位基因间TMRCA来估算。这样有两个问题:

(1)个别基因可能受选择,导致突变速率偏离这个群体的均值,而产生误差;

(2)检测大量个体需要更多采样的工作量。

PSMC创造性的转变思路,把传统的多个个体基因组同一基因采样,替换为PSMC中的1个个体基因组多个基因组位置采样,最终都获得了群体中TMRCA的分布数据。例如,如果一个重组片段是10k,人类基因组3个G就相当于3万个片段的采样。

所以,PSMC相比传统的方法有两个优势:

(1)全基因组水平的采样,减少了个别基因受进化选择导致误差;

(2)1个个体就可以搞定海量的等位采样,大大减少了工作量。

所以,PSMC的方法,主要赢在思路。至于用隐马尔可夫链的方法,去推算重组片段的位置,解TMRCA的分布,对于非数学背景的我根本看不懂,所以干脆略过了。

后续PSMC的改进算法,其实都是在PSMC这个大思路内(利用全基因组数据推算TMRCA)的算法优化,在之后的推送我们还会简要介绍。但从拍案叫绝的程度,还是PSMC最了不起。


https://www.sohu.com/a/364583721_278730

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,921评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,635评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,393评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,836评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,833评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,685评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,043评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,694评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,671评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,670评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,779评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,424评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,027评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,984评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,214评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,108评论 2 351
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,517评论 2 343

推荐阅读更多精彩内容