Mohring J, Piepho HP (2009) Comparison of weighting in two-stage analysis of plant breeding trials. Crop Sci 49:1977–1988. doi: 10.2135/cropsci2009.02.0083
植物育种试验两阶段分析中的加权比较
抽象
系列植物育种试验通常是不平衡的,并且具有复杂的遗传结构。为了降低计算成本,通常的做法是采用两级方法,其中估计每个位置的调整均值,然后执行这些调整均值的混合模型分析。一个重要的问题是如何在第二步中加权第一步的平均值。因此,我们的目标是在使用具有固定或随机遗传效应的混合模型的四个典型系列植物育种试验的分析中比较不同的加权方法。我们使用四个发布的加权方法,并提出了三个新的方法。计算四个评价标准以比较方法,使用一阶段分析作为基准。我们发现两阶段分析给出具有固定遗传效应的可接受的结果。当遗传效应在第二阶段被视为随机时,在四个数据集中的三个中,两阶段分析提供了可接受的结果。在这两种情况下,加权方法之间的差异很小,最好的加权方法取决于数据集,但不取决于评估标准。一个没有加权的两阶段分析也产生了可接受的结果,但是加权多数表现更好。在第四个数据集中,缺失的数据模式是信息性的,导致在一阶段和两阶段分析中违反了随机缺失(MAR)假设。在这种情况下,两种分析都不是严格有效的。
植物育种是在几年内具有许多选择步骤的过程。在早代中,大多数定性性状被测试,而在后代中也评价数量性状例如产量。根据作物的繁殖特性和财务要求,植物育种者使用不同的育种方案,例如谱系选择或双倍单倍体的开发。由于选择和限制可利用的种子或其他资源,来自植物育种计划的数据大多是不平衡的。为了可靠地估计产量和其他选择性状,植物育种人员尽可能在多个环境中测试基因型。通常,基因型被细分为若干多环境试验,其通过一些检查相连(Piepho等人,2006)。试验通常作为可解析的不完全块或行列设计(John和Williams,1995),并通过限制最大似然(REML)进行分析(Patterson和Thompson,1971; Gilmour等,1995)。实验设计的块结构通常由代表从设计的随机化过程产生的各种误差层的随机效应建模,或者使用空间协方差模型(Gilmour等人,1997)或两者的组合Piepho等人,2008)。基因型方法或效应可以通过最佳线性无偏估计(BLUE)或最佳线性无偏预测(BLUP)来估计,这取决于基因型是否分别被认为是固定或随机因子(Smith等人,2001b,2005; Piepho et al。,2008)。固定或随机基因型的假设,除其他外,取决于分析的目的。当基因型的数量大并且要利用亲缘之间的相关性时,如对于杂交预测的情况,然后通过随机g.c.建模基因型效应。 (一般组合能力)和s.c.a. (特定的组合能力)效应与相关结构取决于学科(Bernardo,1994)。类似地,环境可以被认为是固定的或随机的,这取决于试验网站被采样的方式。大多数时间基因型×环境效应被建模为随机的。通常在育种程序中,仅分析来自一年的数据以选择优选的基因型,并且不直接使用关于测试的基因型的亲本和其他祖先的附加表型信息。
分析多环境植物育种数据的常用策略是使用线性混合模型。最有效的方法是在复合数据的混合模型的基础上在单一阶段(一阶段分析)中估计所有固定和随机效应(Smith et al。,2001a; Calin' iski et al。,2005 )。这种方法的主要潜在缺点是计算负担,特别是当基因型和环境的数量大,并且基因型×环境影响的方差 - 协方差结构是复杂的,如在植物育种试验中的情况。因此,非常普遍的做法是在两个阶段中执行加权或未加权分析。在第一阶段,分析每个环境,基于具有固定基因型效应的模型产生基于每个环境的基因型均值的调整的或广义的最小二乘估计(GLSE)。在第二阶段,通过适当的混合模型联合分析来自所有环境的调整的基因型平均值,以计算跨环境基因型的边际平均值。两阶段方法的主要优点是计算速度,而主要问题是如何解释调整均值之间的异方差和协方差异质性。通常,使用某种加权,权重取决于调整方法的方差和协方差,这在医学试验的元分析中也是常见的(Van Houwelingen等人,2002)。常见的两阶段方法在如何确定权重方面不同。植物育种实验的主要并发症是大量的基因型,这使得它在计算上要求在调整平均值之间的协方差。因此,考虑到环境,调整的方法大多被建模为条件独立的(Cullis等人,1996; Piepho和Michel,2000)。当通过具有固定块效应的模型对单个环境进行分析时,调整平均值之间的协方差通常相对较小,因此通过平均值的平方标准差的倒数进行加权构成了一个合理的近似,一些情况是确切的,例如,当环境中的单个试验已经被布置为随机的完整块设计(RCBD)时。相反,当使用空间方法或对不完整块或行和列具有随机效应的模型时,协方差可能很大,因此基于第一阶段的平方标准误差的加权和假定条件独立性将是不适当的,不利的影响方差分量估计和第二阶段的固定和随机效应估计。然而,在实践中,由于更好的效率,具有随机块的空间模型和模型通常是优选的。特别地,对于可解析块或行列设计,为了恢复块间信息几乎总是假定随机块。在这些情况下,协方差通常是可观的,并且不能被忽略,因此加权可能需要比仅使用平方标准误差更复杂的方法(Smith等人,2001b)。
本文提出了在两阶段分析中加权的几种方法,并将其与完全有效的单阶段分析进行比较。我们提出了三种新的方法来确定权重,确保隐含的变异协方差矩阵,其逆,或调整平均值之间的差异的隐含变量在试验中尽可能接近实际值在最小二乘意义。我们提出了使用四个系列的植物育种试验来比较不同加权方法的方法。在描述数据集之后,我们将加权方法的应用结果报告给四个实验。