Kang HM, Sul JH, Service SK, et al. Variance component model to account for sample structure in genome-wide association studies. Nature genetics, 2010, 42(4): 348–354. DOI: 10.1038/ng.548.

计算基因组预测的有效方法

摘要

尽管全基因组关联研究（GWAS）已经鉴定了许多与复杂性状相关的基因座，但研究样本中遗传相关性的不精确建模可能导致测试统计数据的大量膨胀以及可能的虚假关联。方差分量方法，例如有效的混合模型关联（EMMA），可以通过明确地考虑个体之间的成对相关性来校正多种样本结构，使用高密度标记来模拟表型分布;但这种方法在【EMMA计算要求高】计算上是不切实际的。我们在此报告在公共可用软件EMMA eXpedited（EMMAX）中实施的方差分量方法，该方法将用于分析大型GWAS数据集的计算时间从数年缩短至数小时。我们将此方法应用于两个人类GWAS数据集，对来自芬兰北部出生队列的10个数量性状和来自Wellcome Trust Case Control Consortium的7种常见疾病进行关联分析。我们发现EMMAX在校正样品结构方面优于主成分分析和基因组控制。

GWAS可以利用病例对照组来测试与疾病或群体群组的关联以鉴定与数量性状的关联。在这两种情况下，假设群组由具有相同群体背景的无关个体组成，尽管在许多当前GWAS中使用的群组实际上可能不适用。研究样本中相关个体的存在导致样本结构，该术语包含群体分层和隐藏的相关性。群体分层是指在同一研究样本中包含来自不同人群的个体。隐藏的相关性是指研究样本中个体之间存在未知的遗传关系1,2。用于遗传关联研究的队列中存在的样本结构的影响已被充分记录，并被确定为一些虚假关联的原因3,4。
虽然将研究样本完全限制于无关个体可能很困难或不可能，但基因型数据提供了有关样本结构的有价值信息，可以为遗传关联分析提供信息。例如，STRUCTURE软件5使用基因型数据将样本分成不存在样本结构的子群体，随后在所识别的子群体内进行关联测试。为了消除隐藏相关性的影响，可以估计样本中任何一对个体之间下降相同的基因（IBD）的比例，并从分析中排除那些看起来密切相关的个体1,6。然而，群体分层和隐藏的相关性只是样本结构的两种极端表现形式，需要采用方法来纠正其他形式的样本结构。在广泛采用的基因组控制方法7,8中，使用来自单标记分析的测试统计分布来估计膨胀因子，随后重新调整测试统计数据，从而限制误报的风险。 EIGENSTRAT软件9,10使用主成分分析（PCA）来检测和描述样本结构，并已广泛应用于GWAS。一些主要成分可能代表给定数据集中个体之间的广泛差异，有效地捕获了一些主要的群体结构轴，【PCA的局限】但目前还不清楚如何将其余主要成分解释为样本结构的替代11,12。目前，关联研究通常使用这些策略的组合，首先识别近亲将其从分析中移除，然后使用主成分或空间信息校正广泛的样本结构，最后用基因组控制来校正残余膨胀6,13,14。
如果我们知道群体的完整谱系，我们原则上可以应用方差分量方法来模拟遗传关系对表型的影响;这种方法在精神上与直接应用于关联映射16的经典多基因模型15相似。方差分量将捕获直接由家谱产生的种群分层和隐藏相关性的复杂混合，并在映射过程中纠正这些关系。尽管样本中个体之间的确切遗传关系是未知的，但我们可以利用高密度基因型信息来经验地估计报告的无关个体之间的相关性水平。
我们在此报告基于线性混合模型（有时也称为混合线性模型）校正GWAS内的样本结构的方法，其具有经验估计的相关性矩阵以模拟样本受试者的表型之间的相关性。类似的方差分量方法已成功用于动物模型17？9。然而，由于在方差参数的估计中的大量计算负担，甚至应用方差分量方法的有效实现，例如EMMA（参考文献19），对于由数千个个体组成的数据集而言在计算上是难以处理的。利用人类复杂性状的特征，我们做了一些简化的假设，使我们能够显着提高计算速度，使我们的方法适用于GWASs，成千上万的个体在数十万个SNP中进行分析。对于人类中的大多数遗传关联研究，因为任何给定基因座对性状的影响非常小20，我们需要仅针对每个数据集估计方差参数一次，并且我们可以将它们全局应用于每个标记。我们的计算改进减少了使用方差组件模型从几年到几小时分析典型GWAS数据集的运行时间。方差分量方法的优点是经验相关性矩阵编码广泛的样本结构，包括隐藏的相关性和种群分层。相反，通过估计成对遗传相似性矩阵的主轴，主要成分是一种方法，捕获一些（但不是全部）样本结构，如下所示。我们使用来自1966年北芬兰出生队列（NFBC66）13,21和Wellcome Trust Case Control Consortium（WTCCC）6的两个人类GWAS数据集来评估我们的方法。 NFBC66基于一个创始人群体，预计将最大限度地减少遗传异质性，增加绘制感兴趣性状基因的机会22。这是评估我们方法的理想样本，因为该数据集的详细研究23揭示了可能影响遗传关联研究结果的大量种群结构的存在。此外，我们将我们的方法应用于WTCCC6进行的七种常见复杂疾病的病例对照研究。在这两个数据集中，我们的方法始终优于基因组控制和主成分分析。我们称之为EMMA eXpedited（EMMAX）方法，因为它建立在先前的方法EMMA（参考文献19）之上，并显着降低了计算成本。

方法

方差分量模型

我们在这里考虑最简单的Fisher's15多基因模型。让 $Z_{i,j}$ 成为因子 $j$ 对个体 $i$ 的贡献; 那么我们假设表型 $y_i$ 可以建模为
$y_i=\sum_{j=1}^{J} Z_{i,j}+\varepsilon_i \quad E(\varepsilon_i)=0 \quad Cov(\varepsilon_{i1}, \varepsilon_{i2})=0 \quad if \quad i_1 \neq i_2$
其中 $\varepsilon_i$ 是表示环境的随机变量对表型的影响。在等式（1）和整篇论文中，我们仅包括考虑遗传因素的变量，并且所有遗传因素都是相加的。这纯粹是简化符号的简便假设，非遗传因子可以建模为具有直接扩展的附加回归量。可以通过在等式（1）中包括额外的相互作用项来合并上位基因座以模拟多种可能的相互作用类型46,47。
令向量 $Y = {y_1,...,y_n}$ 包含从谱系计算的个体的表型。假设环境成分是不相关的， $Y$ 的方差协方差结构取决于受试者之间共享的基因数量。在没有显性效应的情况下，我们得到
$Var(Y)= 2\sigma_a^2 \Phi + \sigma_e^2I$

（2）
其中 $\Phi$ 是谱系中每对个体之间的亲缘关系系数矩阵，I是单位矩阵48。带随机效应的方差分析能估计 $\sigma_a^2$ 和 $\sigma_e^2$ ，然后可以估计遗传力 $\sigma_a^2/(\sigma_a^2+\sigma_e^2)$ 。
在连锁研究中，这种方差分解更进一步。通过跟踪基因座 $k$ 附近的标记基因的传递，可以计算条件亲属系数（ $\Phi_k$ ，从基因座 $k$ 处的两个个体采样的两个基因是IBD的概率）并且分解方差 $Var(Y)$ 以强调第k个基因座的贡献。
$Var(Y)= 2\sigma_{ak}^2 \Phi_{ak} + 2\sigma_a^2 \Phi + \sigma_e^2I$

为了研究基因座 $k$ 对表型的贡献，检验零假设 $\sigma_{ak}^2=0$ 。方差参数的值可由最大似然估计得到。
在关联研究中，使用更密集的一组基因型，我们的目标是将表型直接与标记基因座上的等位基因相关联; 换句话说，我们的目标是估计固定效应。仅假设加性效应，方程式（1）可以转换为以下回归框架：
$y_i=\beta_0+\sum_{i=k}^{M}\beta_k X_{ik}+\varepsilon_i$
（3）
$Var(\varepsilon)=\sigma_e^2I$ ， $X_k$ 是个体在基因座 $k \in {1,2,L,M}$ 的次要等位基因计数（为简单起见，我们假设所有标记都是双等位的）。我们的目标是确定 $M\times 1$ 向量 $\beta$ 中哪些元素与0不同。
而模型（3）基本上是多变量的，关联研究通常通过测试每个 $M$ 基因座的假设 $H_0: \beta_k = 0$ ，一次一个基因座来进行，基于模型
$y_i=\beta_0+\beta_k X_{ik} + \eta_{i \bar{k}}$
（4）
其中 $\beta_k$ 是标记 $k$ 的效应大小，误差项 $\eta_{i \bar{k}}=\sum_{s\neq k}\beta_s X_{is}+\varepsilon_i$ 。关于等式（3），等式（4）是错误指定的如果假定 $\eta_{i \bar{k}}$ 的值是独立同分布（i.i.d.）：省略相关回归量; 换句话说，我们忽略了性状的多基因背景。
用于估计等式（4）中的 $\beta_k$ 的适当统计方法取决于样本的性质。如果 $n$ 个个体与已知的相关度相关，则等式（4）中的 $\eta_{i \bar{k}}$ 的方差协方差可以近似地表示为等式（2）。也就是说，基因座 $k$ 的基因型的影响可以被建模为主效应，而所有个体之间的关系通过随机多基因效应的方差分量来考虑16。该模型有时被称为混合效应模型的实例17。
如果 $n$ 个个体不相关且基因型之间没有依赖性，那么 $\eta_{i \bar{k}}$ 值是i.i.d.，简单的线性回归将进行适当的推断。但是，这些条件不容易满足。首先，由于连锁不平衡，对应于具有紧密基因组位置的标记的 $X_k$ 值是相关的。此外，在抽样阶段，人口背景的同质性和相关性水平都不容易控制。如果样本中的 $n$ 个个体属于不同的人群或者（尽管是远距离）相关的，则可以预期 $X$ 的行和列之间存在实质相关性。在从等式（4）估计 $\beta_k$ 时就会转换为偏差，而且 $\hat{\beta_k}$ 的分布，是 $\beta_k$ 的最佳无偏线性估计，与标准线性回归中假设的不同（即，等式（4）中的 $\eta_{i \bar{k}}$ 值不是iid）。
使用密集的，基因组范围的基因型数据，有可能在缺乏系谱信息的情况下估计独立确定的受试者之间的关系或亲属关系矩阵50？5。利用估计的亲属矩阵，原则上可以使用线性混合模型中的方差分量技术（如参考文献16中所述）来分析群体样本。如果许多SNP参与性状，并且每个SNP对总性状差异的贡献几乎可以忽略不计，就像人类数量特征出现的情况那样20,56，等式（4）中 $\eta_{i \bar{k}}$ 的方差分量可以近似为 $\eta_{i}=\sum_{s=1}^{M}\beta_k X_{ik}+\varepsilon_i$ ，不需要为每个SNP单独估计。相反可以从类似等式（2）的方差分解模型估计 $\sigma_a^2$ 和 $\sigma_e^2$ 的值将它们保持固定，用GLS过程估计等式（4）中的参数 $\beta_k$ 。

Kang2010 EMMAX

Kang2010 EMMAX

计算基因组预测的有效方法

摘要

方法

方差分量模型

推荐阅读更多精彩内容

友情链接更多精彩内容