Lenarcic, A.B., Svenson, K.L., Churchill, G.A., and Valdar, W. 2012. General Bayesian approach to analyzing diallel crosses of inbred strains. Genetics 190(2): 413–435. doi:10.1534/genetics.111.132563.
摘要
经典的diallel采取一组父母,并从所有可能的交配对产生后代。后代中的表型值可以与其各自的亲本相关联。当父母是二倍体的,有性别的和近交的时候,双列可以表征遗传背景对表型的总体影响,揭示菌株剂量,杂种优势,亲本来源,上位性和其性别特异性形式的影响。然而,其分析传统上错综复杂,无计划的缺失信息,对不平衡的高度敏感,使得双列对许多遗传学家无法接近。尽管如此,不平衡和不完整的diallel经常出现,尽管是无意识地,作为收集F1数据的大规模实验的副产品,例如试验研究或多种繁殖努力,例如Collaborative Cross或拟南芥MAGIC系列。我们提出了一个通用的贝叶斯模型,用于分析雌雄异株二倍体近交系的双列数据,将观察到的变异模式干净地分解成生物直观成分,同时模型和适应异常值,并提供由于不平衡、缺失数据、样本量小导致的不确定性而自动包含不确定性的效应的收缩估计。我们进一步提出了一个模型选择程序,用于衡量是否将这些组件纳入预测模型的证据。我们通过模拟评估我们的方法,并将其应用于关于创建者和Collaborative Cross 的F1的不完整双列数据,强健地表征了48种表型的遗传结构。
diallel是遗传学中最古老的设计之一,其分析非常复杂。前提是简单的:给予一组J父母,从所有JxJ互惠杂交产生和表型后代,并从这些数据估计遗传参数,表征亲代基因组和性别如何影响表型变异。使用这种设计,可以估计平均父母对表型的影响以及与其他父母的特定组合的影响。当亲本是近交系时,也可以估计亲本效应。尽管在diallel中包含了大量的信息,但在实践中阻碍了它的使用。关于估计参数的解释的争议已经与关于分析方法本身的争议不可避免地混淆在一起,并且讨论文献中的大部分被沉浸在潜在用户不熟悉的术语中。事实上,对于局外人来说,这个diallel是作为一个奥秘的难题出现的,或许是为了简化设计而最好的避免。
这个diallel起源于动物和植物育种,作为从育种的角度来看,你应该通过它的后代的表型来判断一个人的价值(克里斯蒂和沙特克1992年及其中的参考文献)。它最初被Schmidt(1919)定义为所有可能的J2成对杂交的集合,并且后来被Jinks和Hayman(1953)引入主流遗传学文献。在接下来的十年里,这个diallel定义迅速扩展到包含J之间的任何一组F1。 2位家长,引起了一群活跃的定量遗传学家的注意,他们继续研究设计和分析的一系列细节。最简单和最流行的分析是Griffing(1956)。如果hjk是亲本j与亲本k的交叉的平均表型或预测值,那么亲本效应可以被建模为
其中m是截距,gj是父母j的主效应,sjk是j和k的统计互动,即父母j和k的特定配对引起的组合主效应的偏差。继斯普拉格和塔特姆(1942)提出并在整个双语文献中使用的术语之后,gj是父亲j的广义组合能力(GCA),而sjk是父母j和k的特定组合能力(SCA)。 GCA捕获加性遗传学的综合影响,而SCA则反映导致偏离加性的总遗传效应,如显性和上位性。
已经提出了许多对Griffing模型的扩展,以从双列中提取更微妙的效应。 (Hayman,1957; Gardner和Eberhart,1966)将其分解为互惠效应(Griffing,1956),进一步将其分解为母体和父本效应(Cockerham和Weir,1977; Zhu和Weir,1996)和与其性相关的变体(Carbonell等,1983)。相反,对获得少于J2十字架的GCA的兴趣激发了设计的变体,例如半双列(Griffing 1956)和部分双列(Kempthorne and Curnow 1961)等等(参见Christie and Shattuck 1992; Lynch and Walsh 1998),它们本身也导致了技术创新(如Greenberg等,2010)。
关于从diallel估计的参数的确切含义的不一致,给他们的解释提出了一个理论上的绊脚石。亲本可以是自交系,独立的杂交种群(如开放授粉的玉米品种)或远交的个体(Eberhart和Gardner,1966)。他们可能是故意选择的,随机抽样的,或者是这些的妥协。试验的目的可以是推断父母本身,每个父母代表的人群,还是所有父母都从中得到的更广泛的人群。对这些因素的综合考虑是通过1950年至1970年的大部分基础性diallel进行的,并且一直是争议的来源(Baker,1978; Wright,1985)。
一个更实际的绊脚石来自估计来自不完整,不平衡或被异常值污染的diallel数据的参数的困难。虽然有意识地建立了一些diallel杂交,但在多亲本育种计划中,作为中间阶段的副产品出现了相当数量的杂交。这样的偶然拨号可以包含有价值的信息,但是它们经常杂乱无章的缺失模式使得它们与经过充分研究的设计不完美匹配。对于许多不完整的diallel,目前还不清楚如何在不丢弃观测数据的情况下分析数据,大大减少推断的范围或做出其他重大的妥协。
即使传统分析方法适用于设计,关于哪些参数(例如明显的显性模型,SCA等)应该被包括在模型中的选择可以改变对其他参数的估计和解释。通过对个别术语的重要性测试进行模型选择的选择(在较老的文献中经常提出)提供了一些指导,但不令人满意,因为所包含的参数是以忽略模型选择中的不确定性的方式估计的。我们认为任何先验合理的效应都应该被排除在建模之外,这似乎是人为的,与现代的应用统计推断方法(例如Gelman and Hill,2007)不同步。
我们提出了一种通用而有效的双列杂交分析方法,并将其应用于从建立协作杂交中偶然发现的不完整八菌株中收集的48种表型的数据集(Churchill等人2004; Chesler等人al。2008; Collaborative Cross Consortium 2012)。我们的分析方法提供了一个推理框架,对于设计中的不平衡,缺少数据和异常值是强大的。我们模拟了广泛的效应,包括加性,杂种优势,上位性,亲本起源和性别特异性变异。这个结构实现了两个重要的目标。首先是对模型参数的熟悉和不断的解释。二是通过分层贝叶斯收缩和模型选择实现稳定一致的估计和预测。