Nielsen R (2005) Molecular Signatures of Natural Selection. Annu Rev Genet 39:197–218. doi: 10.1146/annurev.genet.39.073003.112420
摘要
人们越来越关注检测自然选择靶向的基因或基因组区域。这种兴趣源于对人类和其他生物体中进化过程的更多了解的基本愿望,以及认识到有关选择的推论可能提供重要的功能信息。该综述提供了从DNA序列和SNP数据中检测选择所涉及的问题的非数学描述,并且适用于不熟悉群体遗传理论的读者。特别关注与大规模基因组数据集分析有关的问题。
介绍
几十年来,群体遗传学家一直关注着量化自然选择在塑造生物体中观察到的遗传变异方面的相对贡献的问题。在一个被称为中性理论的思想流派中,物种内和物种间的大多数变异是选择性中性的,即它不影响生物的适合度(fitness)(58,59)。由于随机因素,出现的新突变可能在群体中的频率增加,即使它们不为携带它们的生物提供适合度优势。由于随机因素,等位基因频率在群体中变化的过程称为遗传漂变。
第二种观点认为观察到的大部分变异确实影响了生物的适合度,并受到达尔文的选择(39)。这些问题尚未通过大规模基因组数据的可用性得到解决,但争论已经从关注一般规律或分子进化模式转变为对自然选择塑造变异模式的特定情况的描述。这种类型的分析正在越来越多地进行,因为很明显,关于基因和基因组中的选择模式和分布的推论可以提供重要的功能信息。例如,在人类基因组中,疾病基因分离的区域应该受到选择(假设疾病表型导致适应性降低)。即使非常小的适合度效应,在进化的时间尺度上,也会留下非常强烈的模式。因此,理论上可以通过鉴定目前正在受到选择的人类基因组区域来鉴定推定的遗传疾病因子(7)。通常,受到选择的基因组中的位置必须具有功能重要性。因此,关于选择的推论已广泛用于鉴定功能区或蛋白质残基(12,91)。本文的目的是回顾有关选择对基因组影响的现有知识,并讨论使用分子数据检测选择的方法,特别是基因组DNA序列和单核苷酸多态性(SNP)数据。
选择模型的命名法
关于如何定义各种类型的选择的文献中存在很多混淆,特别是因为某些术语在不同的科学社区中使用略有不同。由于存在进一步造成这种混淆的风险,我在此提出了一些简单的定义,用于讨论选择模型时使用的一些常用术语,然后再继续讨论本评论的主要内容。
基本的群体遗传术语是明确的。生物学学生将首先遇到的经典群体遗传模型是具有两个等位基因的模型,通常表示为A和a。如果三种可能的基因型(wAA,wAa和waa)的适合度不完全相等,则发生选择。如果三种基因型的适合度不完全相等并且如果wAA> wAa> waa或wAA <wAa <waa,则存在方向性选择。方向性选择倾向于消除种群内的变异,并根据A或a是否是新的突变体增加或减少物种之间的变异。如果杂合子具有最高的适合度,如果wAA <wAa> waa,则发生超显性。超显性是平衡选择的一种情况,其中由于选择而在群体中保持可变性。在单倍体生物体中,如果wA =不等 wa时发生选择,则不可能超显性。等位基因之间适合度的差异是选择系数,即,对于单倍体模型,选择系数可以定义为sA = wA-wa。
在分子进化文献中,使用正选择、负选择、纯化选择和多样化选择的术语非常常见。在这里,我们将负选择定义为选择有害新突变的任何类型的选择。同样,我们将阳性选择定义为新突变有利的任何类型的选择(具有正选择系数)。在简单的两个allele模型的背景下,方向选择和超显性都可以是正选择的情况。纯化选择与否定选择相同,因为它描述了针对新变体的选择。多样性选择在群体中具有遗传学文献与破坏性选择的同义词,破坏性选择是两个或更多极端表型值同时受到青睐的一种选择。因此,这种类型的选择通常会增加可变性,因此,分子进化文献中的多样化选择最近被更一般地用于描述增加可变性的任何类型的选择。然而,由于破坏性选择可能会减少遗传变异性,当其中一种极端类型在群体中变得固定时,并且由于还有许多其他形式的选择可以提高遗传变异水平,因此要避免“多样化选择”一词的更通用的应用。
当新突变体不影响其产生的个体的适合度时(即,wAA = wAa = wa),则认为它是中性的。通常,中性描述了所考虑的基因座不受选择影响的条件。旨在拒绝中性进化模型的统计方法称为中性检验。
群体遗传预测
分子群体遗传学的主要兴趣之一是区分中性(仅受随机遗传漂变影响)的分子变异与受选择的变异,特别是正选择。重要的一点是,中性模型通常允许存在强烈有害的突变,这些突变具有如此强烈的负面适应性后果,从而立即从群体中消除(58)。如果选择仅涉及非常强烈影响的突变,那么实际上在群体中分离的唯一突变是中性突变。因此,中性模型包括可能存在的普遍强负选择。尽管负选择或纯化选择可能具有重要意义,因为它可能有助于检测具有功能重要性的区域或残基,但对进化文献的很大兴趣集中于正选择,因为它与适应和新形式或功能的进化有关。群体遗传学争论的主要问题之一是正选择在解释物种内部和物种之间变异模式中的重要程度(39,59)。
在过去50年中,许多关于群体遗传学的理论文献都集中在开发和分析模型上,这些模型将前面提到的基本二等位基因模型推广到两个以上等位基因可能分离的模型,其中多个突变可能出现并相互作用 - 可能存在重组,其中环境可能随时间而变化,并且随机遗传漂移可能在受各种群体统计力影响的人群中发挥作用(25,39)。仅从理论上我们就获得了许多有价值的见解,包括选择的效力不仅取决于选择系数,而且主要取决于选择系数和有效种群规模的乘积。增加的选择效果可能是由于种群数量增加或更大的选择系数。其他重要发现之一是出于多种原因发生平衡选择而不是超显性(例如,波动的环境条件),因此可能非常普遍(38,39)。然而,当多个选择的等位基因在基因组中同时分离时,选择的功效将趋于降低。突变将倾向于相互干扰并减少当地有效种群大小(8,29,40,57)。许多群体遗传学家曾经认为,维持大量选择所需的选择性死亡数量必须非常大,以至于选择可能在塑造遗传变异方面发挥非常小的作用(43,60,61)。这些类型的论证,称为遗传负荷论证,有助于中立理论的发展。然而,基因组可以允许的选择量取决于突变在它们对生物适合度的影响和其他几个关键模型假设中的相互作用方式(25,62,71,107)。群体遗传理论并不排除选择非常普遍的可能性,并且在没有来自真实生物体的数据的情况下不能单独确定选择的相对重要性和形式(25,39)。
群体遗传学界目前存在很多兴奋,因为现在可以在大基因组数据集的背景下测试从理论产生的许多预测。特别是,我们应该能够检测最近已经固定的新的、强烈选择的有利突变的分子特征(在群体中达到频率为1)。随着这些突变频率的增加,它们倾向于减少中性变体分离的邻近区域的变异(13,51,52,68)。选择的突变减少了连接位点在固定时的变异性,这一过程称为选择性清除(图1)。希望通过分析大型比较基因组数据集和大型SNP数据集,我们将能够确定正和负选择如何以及在何处影响人类和其他生物的变异。
图1. 选择性清除对遗传变异的影响。 该图基于100次强选择性清除模拟的平均值。 它说明了在选择性清除周围的区域中,可变位点的数量(可变性)如何减少,LD增加,并且由田岛的D测量的频谱是如何倾斜的。 在有利等位基因达到群体中的频率1之后,立即沿着序列的滑动窗口计算所有统计数据。所有统计数据也按比例缩放,以使中立的预期值等于1。
群体遗传选择的遗传特征
选择的主要影响之一是改变物种内和物种之间的变异水平(表1)。选择性清除倾向于大幅减少群体内的变异,但不会导致物种特异性差异的减少。相反,作用于多个基因座的负选择将倾向于比物种内的变异更大幅度地减少物种之间的变异性。表1总结了各种类型的选择如何影响可变性。请注意,单独突变率的变化对种间(种间)和种内(种内)变异具有相同的影响。然而,选择会不同地影响种内和种间变异。因此,许多用于检测选择的常见群体遗传方法基于比较物种之间的变异,最着名的是HKA检验(48)。在该测试中,比较多个基因的多态性与分歧的比率。如果基因比例在中性模型上的变化大于预期,则中性被拒绝。