1、D-statistic
ABBA–BABA(也常写成 D-statistic)是群体基因组学中用来检测基因流(introgression)或不完全谱系排序(ILS)偏离的经典方法。
ABBA–BABA 需要考虑 4 个群体 (P1, P2, P3, O) 。其中 P1 和 P2 必须是姊妹群,即进化关系上二者在进化树上共享共同祖先,这一点很关键。
因为该检验的目的是检测 P3 是否和 P1 或 P2 之间存在基因流,也就是比较两种关键模式ABBA(P1: A, P2: B, P3: B, O: A),P2 和 P3 共享衍生等位基因,和 BABA(P1: B, P2: A, P3: B, O: A),P1 和 P3 共享衍生等位基因,之间的差异。
如果不存在基因流,也就是完全由不完全谱系分选主导的进化关系时,P1、P2、P3 共同祖先中的 A 和 B 随机在 P1、P2、P3 中固定,那么 P1 和 P2 中固定的、与 P3 中相同的 B,数目应该是相似的,ABBA 和 BABA 出现频率应该相等。这里需要忽略的一类位点数目是 BBAA,也就是大多数背景位点的状态。
如果结果中检测到 ABBA(P1: A, P2: B, P3: B, O: A)更多,则说明 P3 和 P2 之间存在基因流,如果 BABA(P1: B, P2: A, P3: B, O: A)更多,则说明 P1 和 P3 之间存在基因流。
其本质为比较两种共享衍生等位基因的不对称性,从而检测基因流信号。
如果外类群选用的不合适,或者 P1 和 P2 不是真实的姊妹类群,则会造成 ABBA 和 BABA 天然不对称。
2、f3 statistic
f3 不需要外类群,用来检测一个群体是否是 admixed 群体,也就是说一个群体的基因组是不是来源于两个不同祖先群体的遗传贡献。
f3(C; A, B) 的形式中,C 为被检测是否为混合群体(target) ,A 和 B 为两个来源群体(source) ,如果 C 是 A 和 B 的混合,则会出现 f3 < 0。
需要注意的是,只有 f3 < 0 才有明确生物学意义,f3 ≥ 0 不能说明一定没有 admixed。原因有以下几点:
1)admixed 发生的时间太久远了;
2)来源群体选错;
3)A 和 B 对 C 的基因组贡献严重不均。
f3 想要说明的是现在这个群体的基因组是不是“两种来源拼出来的”。
延伸指标:
3、DFOIL
ABBA-BABA 只能检测是否存在基因流,但不能判断基因流的方向。
如果可以增加一个群体,形成双姊妹类群的结构 (((P1, P2), (P3, P4)), O) ,就可以判断基因流的方向了。如果是 P1 向 P3 的基因流,那么不止 P1 和 P3 会变得更像,P3 也会同时和 P2 更像(因为 P1 和 P2 是姊妹群),也就是说,recipient(P3)不仅靠近 donor(P1),还会靠近 donor 的“姊妹”(P2)。
基于此,5 群体可以可以计算四个 D 统计值:
DFO ≈ D(P1, P2; P3, O) 、P3 更像 P1 还是 P2?
DIL ≈ D(P1, P2; P4, O) 、P4 更像 P1 还是 P2?
DFI ≈ D(P3, P4; P1, O) 、 P1 更像 P3 还是 P4?
DOL ≈ D(P3, P4; P2, O) 、 P2 更像 P3 还是 P4?
通过比较两对姐妹群之间的交叉亲缘关系,并利用其符号组合来推断基因流方向。
需要注意的是,5 群体一定要符合正确的拓扑结构,这是前提。错误的拓扑结构会产生系统性错误。此外,姊妹群内部不能有太强的admixture,这样会造成信号混乱。
DFOIL 适用于拓扑清晰、基因流相对简单的五群体系统,用于推断单向基因流方向;但在存在复杂基因流网络时,其结果容易受干扰,需结合其他方法共同解释。
4、f4-ratio
估计基因流比例
5、fd
检测局部 introgression 强度,适合 window 分析。