Genetic load: genomic estimates and applications in non-model animals
一篇 2022 年 2 月发表在 Nature Reviews Genetics 上的综述。通讯作者为意大利 University of Ferrara 的 Giorgio Bertorelle 和英国 University of East Anglia 的 Cock van Oosterhout。
遗传变异可能会降低群体的平均适合度。如今,基因组测序技术和计算方法的进步让我们能够在无法直接估计适合度的情况下,从序列数据估计遗传负荷。作者们 review 了经典的以及当代的关于遗传负荷的文献,总结了根据保守程度和注释来量化遗传负荷的方法。将负荷分为两部分,the realized load (or expressed load) 和 the masked load (or inbreeding load),能够帮助我们更好地理解群体中的有害突变。
对于一个适应了当前环境的群体,变异往往是有害的。即使是新的有利变异,对其祖先 variant 的替换也会给群体带来负担,这种情况就是 the cost of natural selection。由此导致的个体及群体平均适合度的下降就是遗传负荷,可以被理解为物种为了未来的演化能力付出的代价。
传统的遗传负荷从表型影响的角度出发,被定义为“与最佳基因型相比,适合度降低的比例”,但是这个定义没有考虑到潜在的对适合度的影响,例如隐性有害突变的影响。本文中的遗传负荷指的是包括这部分潜在影响的 total load。按照原因和影响,遗传负荷被分成了许多类,包括 mutational load, drift load, evolution load, inbreeding load, segregation load, migration / hybrid load, recombination load 等等。但是在全基因组测序分析中,这些定义大多缺少量化分析的框架而难以应用。
在二倍体生物中,遗传负荷可以分为实际负荷和潜在负荷(前面提到过的 the realized load and the masked load,自己翻译的)。实际负荷对当前 generation 的适合度造成影响,而潜在负荷可能在未来造成不利影响,其实际效果取决于群体的 demography(例如近交、群体缩小或分化)。
负荷的单位是 lethal equivalent,一个 lethal mutant 可以理解为:在群体中所有的某突变的效果加起来等于一个个体的死亡,也就是,当一个突变完全致死时,群体中存在一个该突变则为一个 lethal mutant,而当一个突变有 50% 的可能性致死时,群体中存在两个该突变则为一个 lethal mutant。
lethal equivalents 的第二种定义是,认为每个突变会以给定的概率降低适合度,这种定义对于近交衰退、保护基因组学中对灭绝概率的评估等分析更加合适。根据这种定义,携带超过一个 lethal equivalent 的实际负荷的个体仍然可以存活。这个定义的前提假设是,(semi-) lethal mutations 在群体中频率低,因此纯合 lethal 是罕见的。如果 (semi-) lethal mutations 在群体中常见的话,适合度也就不再是实际负荷的负指数了(一个个体表达一个致死突变的话就肯定会死)。
取决于群体的 age,遗传负荷与有效群体大小有一个非线性关系。存在了很长时间的小群体会有最高的遗传负荷,因为许多轻微有害突变被固定下来,升高了实际负荷。而小群体中潜在负荷往往很低,因此,小群体中不会表现出明显的近交衰退。随着群体的增大,潜在负荷升高,因此在群体减小中容易受到近交衰退的影响。虽然瓶颈效应会清除一些强有害突变而降低遗传负荷,但是也会将潜在负荷转化为实际负荷。除此以外,很长的瓶颈期最终会导致有害突变固定、实际负荷持久存在。因此,即使种群数目恢复了,要替换掉群体中被固定下来的有害突变,还是需要外来遗传物质的引入。
在基因组研究中,可以通过两个步骤来估计遗传负荷:首先预测突变的有害效应,然后将这些突变的有害程度相加,获得负荷指标。
Predicting deleterious mutations
预测突变影响主要有两种方法:第一种是通过跨物种比对获得该位点的保守性来估计;第二种是基于在模式物种中该突变的已知影响来进行估计。还有第三种不那么常见的方法,是通过突变基因的表达量来进行估计。
基于保守程度的分析,使用的物种越多、演化距离越远则准确度越高(在存在 anchor species 的情况下,也就是说在两个距离非常远的物种之间存在一个 species 将它们联系起来,帮助更好地鉴定保守元件)。很大规模的比对不容易做,因为支系间存在 considerable turnover of constrained sites,并且计算量很大。
另一种方法是通过对于突变所在区域的生化分析或者功能注释来预测突变的影响。举例来说,氨基酸的化学性质可以用于估计任一改变对蛋白质功能的影响。此外,编码区域的突变可以被划分为同义突变或非同义突变。这类信息也可以用于估算突变的有害程度。蛋白质结构、实验中获得的突变的已知影响、对基因组的更详细的注释都可以提供更多的信息。一些衍生突变可能会错误地被标记为有害突变,这种错误可以通过结合整体 mutational spectrum(The rate of different types of DNA mutations in different sequence contexts)来避免。
基因表达数据也能够用来预测特定变异对适合度的影响。基因表达量和蛋白质多态性之间存在负相关关系,高表达基因往往有高度保守的编码序列,因此在遗传负荷估计上,这些高表达基因上的突变应该首先被考虑(对适合度影响大)。不过这种方法需要已知基因表达量,并且需要将数据和预测值关联起来。而且,基因表达数据不能够应用于单个核苷酸。
Translating deleteriousness scores into genetic load proxies
作者在上表中总结了由突变有害程度计算遗传负荷的方法。虽然有很多的方法,但是却没有一个所有人一致同意的金标准。因此不同研究得出的负荷程度很难比较。
在文章的后两部分中,作者总结了在模式生物、家畜以及非模式生物中对遗传负荷的研究,总结了一些研究发现的规律,并且展望了未来的研究。作者建议:应该建立一个统一的标准;更多地研究基因型与适合度之间的关系;将古 DNA 数据结合进来;在保护生物学中进行实际应用。