包括在贝叶斯方法中用于基于全基因组标记的遗传值的预测的非加性遗传效应
抽象
背景
分子标记信息是绘制关于遗传和表型变异之间的关系的推论的常见来源。遗传效应通常被建模为加性作用标记等位基因效应。生物作用的真正模式当然可以不同于这个平常的假设。更好地理解复杂性状的遗传结构的一种可能性是包括等位基因的基因座内(显性)和基因座间(上位)相互作用以及当将模型拟合到性状时的加性遗传效应。存在几种贝叶斯MCMC方法用于遗传效应的全基因组估计,具有高准确性的遗传值预测。包括成千上万个位点的成对相互作用可能超出这种采样算法的范围,因为然后将同时估计数百万个效应,导致几个月的计算时间。当研究上位性时需要替代性解决策略。
方法
我们扩展了一个快速贝叶斯方法(fBayesB),这是以前提出的纯粹的加性模型,包括非加性效应。 fBayesB方法用于在模拟数据集的基础上估计遗传效应。模拟不同的情景以研究预测精度的损失,如果上位性效应未被模拟但是被建模,反之亦然。
结果
如果模拟23个QTL以引起加性和显性效应,则fBayesB和常规MCMC采样器BayesB在基于包括加性和显性效应的模型的遗传值预测和方差分量估计偏差方面产生类似的结果。将fBayesB应用于具有上位性的数据,当所有成对相互作用被建模时,准确度可以提高5%。如果遗传变异扩散超过230个QTL,精确度降低20%以上。在这种情况下,基于建模只有加性和显性效应的准确性一般优于包括上位效应的复杂模型。
结论
该模拟研究表明,fBayesB方法对于遗传值预测是方便的。共同估计加性和非加性效应(特别是显性)对预测的准确性和分配到加性遗传来源的遗传变异的比例具有合理的影响。
1背景
分子标记信息通常用于推断关于各种物种的遗传和表型变异之间的关系,例如。人[1],奶牛[2]或小鼠[3]。假设数量性状基因座(QTL)和标记之间的连锁不平衡(LD),可以估计遗传效应并解释为由邻近标记捕获的QTL效应。如果育种值是焦点,遗传效应通常被建模为加性作用标记等位基因效应(例如[4,5])。生物作用的模式当然可以不同于纯加成性的假设。更好地理解复杂性状的遗传结构的一种可能性是在将模型拟合到性状时包括等位基因的基因座内(显性)和基因座间(上位)相互作用。最近已经研究了非加性效应对遗传变异的重要性。关于非加性效应的知识对于受益于例如杂种显性效应[6]是必要的,特别是对于杂交育种方案(家禽,植物等)。通常,可以预期的是,如果对非加性效应进行另外建模,则遗传值的预测,特别是其加性部分的预测得到改善。例如,Lee等人[7]报道当在小鼠中研究表型涂层颜色(+ 17%的准确性)或CD8 +细胞的百分比(+ 2%的准确性)时,与单纯加性遗传模型相比,当包括显性效应时,预测的准确度显着增加。然而,增加的上位性在这种情况下没有贡献准确性。在大豆重组近交系的实例中[8],在上位模型下预测的准确度增加了一倍以上。即使非加性效应可能发生在基因作用的水平,当基因处于极端频率时,大多数遗传变异可能被赋予加性效应[9]。例如上位性参与调节复杂性状的程度是未知的,但关于它的知识可以用于推断生物学机制和重建生物学途径[10]。 Carlborg等人[11]在关于对鸡生长差异的非加性影响的第一个研究中,估计10%的早期生长(性状Gr18)的遗传变异是由于显性,甚至70%由于上位性。这个例子显示了相互作用位点的重要性,虽然可以假设高估上位性效应,一种已知为单个位点的Beavis效应的现象[12]。由于这个实验是基于十分不同的线,需要进一步的研究来找到证据的交互基因在纯种。
不同的方法可用于模拟加性和非加性遗传效应。在QTL检测的方面,可以使用例如方差分量法来进行基因组扫描以揭示遗传效应[13,14]。如果加性和非加性效应要在整个基因组上同时建模,我们必须知道“p大于n”的问题,意味着有更多的参数比观察。为了应对一体化的局面,Xu提出了一种贝叶斯方法[15],它与BayesA [4]和一个经验贝叶斯方法[16]加性剂标记效应。通常用于估计加性效应的贝叶斯方法应用需要大量计算时间的马尔科夫链蒙特卡罗(MCMC)模拟,但是他们在预测遗传值的准确性方面说服他们。特别地,BayesB方法[4]优于其他方法,例如脊回归和偏最小二乘[17,18,19]。如果包括进一步的非加性效应,MCMC采样方法可能在高标记密度下崩溃。作为一种替代方法,贝叶斯方法是可用的,应用分析导出的后验密度的标记效应,而不是其样品[20]。这种方法(称为fBayesB)显示出略微不太准确,因为在迭代过程中,一次仅研究单个标记物效应,而针对所有其他先前估计的效应校正表型的载体。 fBayesB策略比使用MCMC的传统贝叶斯方法快得多。这种解决方法提供了另外考虑全基因组相互作用效应和用合理的计算努力来估计它们的可能性。
本研究的目的是探讨非加性效应对牲畜种群遗传价值预测的影响。当加性和非加性效应联合涉及将模型拟合到性状时,旨在改进的加性效应的估计和更好的遗传值的预测。由于旨在估计任意群体中的非加性效应的方法刚刚出现,因此使用模拟来验证这些方法是特别重要的。因此,通过这项研究,我们追求方法方面,从而组合事实,有助于解释在实际数据中获得的结果在未来的工作。我们认为加性,显性和成对地上位效应捕获在分布在整个基因组的双等位基因标记。统计建模的细节在本文的第一部分。我们扩展了快速贝叶斯方法(fBayesB),它是在纯加和性下开发的[20],包括非加性效应。 fBayesB用于在类似于奶牛群体的模拟数据集的基础上估计遗传效应。模拟不同的情景以研究预测精度的损失,如果上位性效应未被模拟但是被建模,反之亦然。在第二部分,我们总结了分析模拟数据的结果。确定在标志物效应的全基因组估计后分配给每种遗传效应的遗传变异的量。为了简要说明该方法在实践中的行为,我们还将fBayesB应用于实际数据示例。在第三部分,我们概述了通过fBayesB方法估计非加性效应的一些约束,并讨论其他解决策略。