文献分享 | Nat Genet:常见 SNP 可以解释人类身高的大部分遗传因素

image.png

●英文题目:《Common SNPs explain a large proportion of the heritability for human height》
●期刊:Nature Genetics
●影响因子:2024_IF=31;中科大类: 遗传学期刊1区; JCR分区: Q1
●发文单位:昆士兰大学 (QIMI)
●文章作者:现西湖大学研究员杨剑、昆士兰 QIMI Peter M Visscher

摘要

全基因组关联研究 (GWAS) 发现的 SNP 仅能解释人类群体复杂性状遗传变异的一小部分。那么,剩余的遗传力去哪了呢? 我们使用线性模型估计了3,925 名无关个体的294,831个SNP所解释的人类身高变异比例,并使用基于观察到的基因型数据的模拟对评估方法进行了验证。我们表明,45% 的变异可以通过同时考虑所有 SNP 来解释。因此,大多数遗传力并非缺失,只是之前未被检测到,因为个体效应太小,无法通过严格的显着性检验。我们提供的证据表明,未检测到的遗传力是由于因果变异和基因型 SNP 之间的不完全连锁不平衡造成的,且由于致病变异的次要等位基因频率低于目前已探索的SNP,导致这一情况更加严重。

前言

人类群体中的GWAS已发现数百个与复杂性状存在显著关联的SNP,但对于任何一种性状,它们通常只能解释一小部分遗传变异。缺失的遗传力,即所谓的基因组暗物质在哪里? 可能的解释包括基因与基因或基因与环境相互作用的存在常见疾病-罕见变异假说以及遗传的表观遗传因素导致亲属之间相似的可能性。然而,已验证的SNP解释的方差通常比狭义遗传力(表型变异中由遗传变异加性效应所解释的比例)小得多。非加性遗传效应对狭义遗传力没有贡献,因此基于非加性效应的解释与缺失遗传力的问题无关。 经验证的 SNP 关联无法解释估计的遗传力,有两种合理的解释:<u>要么因果变异各自解释的变异量很小,以至于其影响未达到严格的显著性阈值</u>,<u>要么因果变异与已进行基因分型的 SNP (array data) 不完整的连锁不平衡 (LD)</u>。例如,如果因果变异的次要等位基因频率 (MAF) 低于基因分型的 SNP,则可能缺乏完整的 LD。在这里,我们测试了这两个假设,并估计了每个假设对人类身高遗传力的贡献。


身高是人类的一个经典的数量性状,易于测量,作为一个研究复杂性状遗传基础的模型,已被研究了一个多世纪。身高的遗传率估计约为0.8。人们发现了导致极矮或极高身材的罕见突变,但这些突变并不能解释一般人群中的大部分变异。最近针对数万名个体的 GWAS 检测到了 ∼50 个与人群身高相关的变异,但这些变异总共只能解释 ∼5% 的表型变异。


为检测 SNP 与复杂性状之间的统计关联而收集的 GWAS 数据,通常通过对每个 SNP 单独检测其与性状的关联进行分析。考虑到要进行的大量显著性检验,会使用非常严格的P值。这虽然减少了假阳性的发生,但可能会导致许多真正的关联被遗漏,特别是当单个 SNP 对性状的影响很小时。为解决此问题而设计的另一种方法是同时拟合所有 SNP。SNP 的影响在统计上被视为随机的,并估计所有 SNP 共同解释的方差。我们在此使用的这种方法并不试图检验单个 SNP 的显著性,而是提供所有 SNP 总体解释的方差的无偏估计。

结果

1、估计由全基因组SNP解释的遗传方差

我们从大量 GWAS 中挑选出 4,259 名彼此之间没有已知亲缘关系的个体,并用 SNP 数据证实了这一点。然后,我们使用所有常染色体标记(MAF ≥ 0.01)估计了他们的成对遗传关系,并保留了3,925名成对关系估计小于 0.025 的个体(3,248 名成年人和 677 名 16 岁青少年)(最大亲缘关系大约相当于远隔两到三次的堂兄弟)。我们对身高数据拟合了一个线性模型,并使用限制最大似然法 (REML)估计由 SNP 解释的方差。(该模型使用 SNP 来计算受试者对之间的基因组关系)。利用这种方法,我们估算出 SNP 解释的表型变异比例为 0.45(se = 0.08,表 1 ),相对于已发表和已验证的 SNP 解释的 5% 增加了近 10 倍。


image.png

2、校正SNP与因果变异之间的不完全LD

我们估计的 45% 仍然低于由于加性遗传效应导致的 80% 的表型变异(即估计遗传力)。SNP 不能解释全部估计遗传力的原因之一是芯片上的 SNP 与因果变异不完整 LD。SNP 解释因果变异引起的表型变异的能力取决于所有因果变异与所有 SNP 之间的 LD。缺乏完整的 LD 表现为每对受试者j和k在因果变异(Gjk)处的基因组关系与根据 SNP 计算出的相同个体之间的关系(Ajk)之间存在差异。由于因果变异未知,我们无法直接估计它们与观察到的 SNP 的 LD。但是,我们可以通过考虑基因型 SNP 之间的 LD 来模拟它。因果变异和 SNP 可能具有不同的特性,因此 SNP 之间的 LD 仅是因果变异和 SNP 之间 LD 的指南。 因果变异与 SNP 可能不同的一种方式是 MAF。为了研究Gjk和Ajk之间的差异如何取决于所用的 SNP 数量和因果变异的 MAF,我们在成人数据集中随机抽取了五组 SNP(50K、100K、...、250K,其中 K = 1,000),在青少年数据集中随机抽取了十组 SNP(50K、100K、...、500K)。 对于每个 SNP 集,我们将 SNP 随机分成两组,第一组代表 SNP,第二组代表因果变异,并使用第一组(Ajk)中的所有 SNP 和第二组(Gjk)中 MAF ≤ θ的 SNP 来估计遗传关系,其中θ = 0.1、0.2、0.3、0.4 或 0.5。我们通过计算Gjk对Ajk的回归来校准预测误差。我们经验方法确立了回归系数(图1)
beta = 1 - \left( \frac{c + 1/N}{var(A{jk})} \right)
其中N是用于计算Ajk的 SNP 数量, c中的项取决于因果变异的 MAF。如果因果位点的等位基因频率谱与基因型 SNP 相同(θ = 0.5),则c = 0,1/ N可解释为从N 个随机 SNP 估计整个基因组关系的抽样误差。如果θ < 0.5,则参数c > 0,因为 MAF 较低的因果变异的关系通常小于整个基因组的平均关系。

image.png



因此,考虑到所使用的 SNP 数量,如果因果变异具有与基因型 SNP 相同的等位基因频率谱,我们可以校正与因果变异具有不完整 LD 的 SNP 解释的方差估计值。使用与上述相同的线性模型,但针对这个不完整 LD( c = 0)进行了校正,我们估计因果变异解释的方差比例为 0.54(se = 0.10;表 1 )。该估计假设 SNP 和因果变异之间的 LD 与基因型 SNP 之间的 LD 一样强。但是,如果因果多态性的 MAF 倾向于低于已检测的 SNP,正如数量遗传变异的中性和选择理论所预期的那样,我们预计 SNP 和因果变异之间的 LD 会降低。当我们使用 MAF < 0.1 的 SNP 作为因果变异的代理时,我们发现c = 6.2 × 10−6 。使用此c值校正不完整 LD,我们估算出因果变异解释的身高变异比例为 0.84(se = 0.16)。虽然标准误差很高,但该结果与因果变异平均频率低于商业芯片上使用的 SNP 相一致,因此因果变异与这些 SNP 的 LD 小于其他 SNP 之间的 LD。这并不能证明因果变异的 MAF < 0.1,但它表明如果是这样的话,它们可以解释估计的身高遗传力(∼ 0.8)。

3、解释的方差不依赖于 SNP 的数量

如果我们用于校正 SNP 与因果变异之间不完整 LD 的程序正确,则因果变异解释的方差不应该取决于所使用的 SNP 数量。 为了证明这一点,我们随机抽取了所有∼ 295K 个 SNP 中的 10%、20%、…… 和 100%,并使用原始和调整后的关系估计值(假设c = 0;图 2 )估算每组 SNP 的因果变异解释的方差。 对于关系的原始估计值,解释的方差比例随着 SNP 数量的增加而增加,因为通过纳入更多 SNP 可以减少预测误差。 当根据预测误差调整关系估计值时,解释的方差比例与 SNP 数量无关,并与 ∼0.54 的估计值一致,但当使用的 SNP 较少时,se 较大。

image.png

此外,3,925 人中有 1,318 人的基因型为∼ 516K SNP,因此我们用 516,345 个 SNP 估计了这些个体(641 名成年人和 677 名 16 岁青少年)之间的关系,并用 294,831 个 SNP 估计了其余的成对关系。我们根据所用的 SNP 数量调整了关系矩阵的两个部分(假设c = 0)。由此得出的因果变异解释的方差比例估计值与使用所有具有∼ 295K SNP 的个体得出的估计值没有区别(表 1 )。

4、模拟实验

我们利用模拟研究来验证使用全基因组 SNP 估计因果变异解释的方差的方法。我们根据 3,925 个个体和 294,831 个 SNP 的观察到的基因型数据,以两种方式模拟了数量性状:(i)从所有 SNP 中随机抽取因果变异,(ii)从 MAF ≤ 0.1 的 SNP 中随机抽取因果变异。表 2 表明,在情况 (i) 中,如果我们在估计遗传关系时包括因果变异,我们将获得因果变异解释的表型变异比例的无偏估计(在这种情况下,这是性状的遗传性,因为在模拟中我们知道这些因果变异解释了所有的遗传变异)。当我们排除因果变异时,我们低估了遗传力,因为由于 LD 不完整,由 SNP 得出的关系高估了因果位点处关系的变化。然而,当我们使用方程 (9)(c = 0)


image.png

调整关系估计时,遗传力估计值得到恢复。在情况 (ii) 中,即使我们在分析中包括因果变异,我们仍然低估了遗传力,因为因果变异的平均频率低于 SNP,并且与 SNP 的 LD 小于 SNP 与其他 SNP 的 LD。同样,当我们用方程 (9)(c = 6.2 × 10−6)调整关系估计时,我们获得了遗传力的无偏估计值。这些结果与我们从实证数据中得出的推论一致。 结果表明,只要采用此处提出的方法,无论使用的 SNP 数量有多少,因果变异引起的方差估计都是无偏的。

image.png

讨论

到目前为止所鉴定的高度显著且重复性良好的 SNP 只能解释身高的约5% 的表型方差。我们的结果显示,常见 SNP 总共可以解释另外约40%的表型方差。因此,88% (40/45) 的由 SNP 引起的变异在已发表的 GWAS 中未被发现,因为 SNP 的效应太小,不具有统计学意义。我们的结果还表明,80% 的遗传力和所有 SNP 可解释的 45% 之间的差异是由于因果变异和 SNP 之间的不完整 LD 造成的,可能是因为因果变异的平均 MAF 低于芯片上分型的 SNP。我们无法从这些结果判断这种差异是否部分是由频率非常低的因果变异造成的 — — 例如,MAF < 0.001。然而,结果表明,整体的遗传方差可以用与 SNP 相似的MAF < 0.1的因果变异来解释。如果影响身高的因果变异对适应性没有影响,它们将显示完整的 MAF 范围,但在低 MAF 下的比例高于商业芯片上的 SNP。如果影响身高的变异任一等位基因受到选择,则仍将存在 MAF 范围,但在低 MAF 下的比例会更大。因此,我们并不能得出结论说所有因果变异的 MAF 都 < 0.1,但因果变异的 MAF 范围在低值处比用作标记的 SNP 更集中

检测单个 SNP 与身高等特征显著相关的效力取决于与 SNP 相关的方差。这又取决于 SNP 与因果变异之间的 LD、因果变异的影响及其频率。影响较小的因果变异或影响较大的稀有等位基因(包括稀有孟德尔变异)将解释很少的方差,因此即使它们与测定的 SNP 处于高 LD,它们也往往不显著。然而,这些 SNP 的累积效应将作为我们分析中 SNP 解释的 45% 表型变异的一部分。尽管使用了∼ 295K SNP,许多因果变异(尤其是如果它们具有低 MAF)不会与测定的 SNP 处于完美的 LD。这降低了传统 GWAS 检测它们的功效,并降低了我们研究中对 SNP 的总体估计方差。结果表明,大多数因果变异只能解释很小一部分变异,因此一定存在许多影响身高的因果变异。已发表的 GWAS 结果与这一发现一致,因为较高的检验统计量占据整个基因组的很大部分。

如果人类的其他复杂性状(包括常见疾病)具有与身高相似的遗传结构,那么我们的结果意味着需要更大规模的 GWAS 才能找到与这些性状显着相关的单个 SNP,因为每个 SNP 通常解释的方差非常小。即便如此,某种性状的某些遗传变异仍将无法检测到,因为基因分型的 SNP 与因果变异的 LD 信息并不完整。深度重测序研究可能会发现更多的多态性,包括将在未来的基因分型阵列中呈现的因果变异。我们的数据提供了强有力的证据,表明许多这些因果变异所贡献的变异可能很小,需要非常大的样本量才能表明它们各自的效应具有统计学意义。最近对精神分裂症也得出了类似的结论。在某些情况下,小的方差将归因于稀有等位基因的巨大影响,但这仍然需要大样本量才能达到显著性。我们研究中使用的全基因组方法可以促进对复杂性状变异性质的理解,并可用于农业选择狱中和人类个体风险预测。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容