Moreira, F.F., Oliveira, H.R., Volenec, J.J., Rainey, K.M., and Brito, L.F. 2020. Integrating High-Throughput Phenotyping and Statistical Genomic Methods to Genetically Improve Longitudinal Traits in Crops. Front. Plant Sci. 11(May): 1–18. doi:10.3389/fpls.2020.00681.【这是我很长时间关注的一个问题】
结合高通量表型分析和统计基因组方法对作物纵向性状进行遗传改良
遥感技术在农艺学研究中的迅速发展,使作物纵向性状的动态特性得到充分的描述,从而促进作物效率的遗传改良。对于光截获、生物量积累和应激反应等性状,各种高通量表型(HTP)方法生成的数据需要足够的统计技术来评估整个时间段的表型记录。因此,有关植物功能和基因激活的信息,以及在植物发育的不同阶段和对环境刺激的反应中基因网络的相互作用可以被利用。在这篇综述中,我们概述了目前在数量遗传学中应用于作物整个发育过程中纵向性状的分析方法,描述了每种方法的优点和缺点,并指出了未来的研究方向和机会。
介绍
植物育种家的下一个挑战是通过减少产量差距来提高农业生产效率,同时培育出更具抗逆性的品种(Godfray等,2010;Foley等,2011;Ray等,2013;Challinor等,2014;Tai等,2014)。最可行的解决方案是开发创新方法,以加快经济重要性状的遗传改良,描述新性状,并将其纳入育种计划(Duvick,2005;Lange和Federizzi,2009;Fischer和Edmeades,2010;Nolan和Santos,2012;Rogers等,2015)。
植物育种学是20世纪初建立起来的一门科学,当时人们对数量性状表型变异的遗传学基础的新见解,分别与孟德尔和达尔文阐明的遗传机制和作物杂交的基础理论相结合(约翰森,1909,1911;East,1911;Bradshaw,2017年)。从那时起,植物育种家通过选择许多性状来提高作物产量。育种目标不断完善,以应对新的挑战,包括适应新的生产区域、应对新出现的病虫害、各种最终用途、先进的农业技术和气候变化(Toenniessen,2002;Baenziger等,2006;Tester和Langridge,2010;Gilliham等,2017)。例如,1955年大豆育种的重点是提高种子含油量、冠层覆盖率和成熟均匀性。十年后,重点转移到减少荚果破碎和倒伏,然后这些年又发生了变化,包括质量和附加值性状(Baenziger等,2006年)。在动物育种中,育种目标和表型技术也发生了类似的变化(Henryon等,2014年;Miglior等,2017年)。然而,纵观历史,改善感兴趣的性状取决于量化在多个环境中复制的基因型表型的能力(Stoskopf等,1994年)。因此,潜在的有价值的性状可能由于昂贵的表型和技术限制而被忽视。
植物表型一直是遗传改良的首要任务。近端遥感技术的最新进展,再加上新的传感器和计算机科学应用,使得成本效益高的高通量表型(HTP)和新性状的解剖成为可能(Montes等,2007;Furbank和Tester,2011;Fiorani和Schurr,2013;Araus和Cairns,2014;Coppens等,2017)。HTP提供时间序列测量,跟踪作物在整个生命阶段的发育情况以及对环境的反应。有关基因功能、基因激活、基因网络在植物发育不同阶段的相互作用以及对环境刺激的响应等方面的信息现在可以利用(Wu和Lin,2006;Montes等,2007)。植物育种家越来越有可能将光截获、生物量积累和对干旱胁迫的响应视为动态特征,而不是静态的时间点(Montes等,2007)。这一分析框架增强了我们对作物发育的理解,并弥合了基因型与表型之间关系的差距(Granier and Vile,2014;Araus等,2018)。
在个体一生中反复或连续表达的特征可以定义为纵向特征(Yang等,2006年;Oliveira等,2019a)、无限维特征(Kirkpatrick和Heckman,1989年)或功能值特征(Promislow等,1996年)。对纵向性状的研究可以为深入了解环境胁迫和发育过程中生理反应的遗传机制提供重要的见解。该信息可用于提高多变量环境下复杂多基因性状的预测能力,并有助于识别总体(如大豆产量)或特定时间的数量性状位点(QTL)(Fahlgren等,2015;Campbell等,2017;Sun等,2017)。这样的分析可以评估遗传和环境因素的统计关联,例如不同发育阶段的分子标记与非生物胁迫反应之间的关系(Langridge和Fleury,2011)。在这种情况下,表型数据描述了一个功能随着其他变量的变化而不断变化(Stinchcombe和Kirkpatrick,2012;Granier和Vile,2014)。这些方法产生大量的数据,这就需要先进的统计方法来评估表型数据作为时间的函数。在这篇文献综述中,我们将概述目前定量遗传学和基因组学中的分析方法,这些方法可以应用于随着时间的推移而量化的HTP(图1)。此外,我们描述了每种方法的优点和缺点,并探讨了未来研究的方向和机会。
图1。纵向数据分析的工作流程示意图。不同的遥感工具最常用的高通量表型监测作物生长和发育。比较概述潜在的基因组分析模型,连同输出和计算需求的例子。
表型纵向性状
当前的HTP平台,也被称为“表型”工具,包括各种方法,在受控环境或现场使用遥感获得非破坏性表型测量值(Pauli等,2016b)。作物表型分型最常见的传感器类型包括红-绿-蓝(RGB;Xavier等,2017)、多光谱(Xu等,2019)、高光谱(Bodner等,2018)、荧光(Pérez-Bueno等,2016)、热传感器(Sagan等,2019)、三维传感器(3D;Topp等,2013年),以及激光成像探测和测距(LiDAR)(Sun等,2018)设备。一般来说,这些传感器依赖于电磁辐射与植物之间的相互作用(反射、吸收或传输光子),传感器将其捕获为反射辐射(Fiorani等,2012;Li等,2014)。因此,传感器将植物解释为光学物体,植物的每一个成分都显示出一个特征光谱特征,这是由植被表面的吸收率、反射率和透射率的波长特性引起的(Schowengerdt,2012;Li等,2014)。
植物的光谱特征在生命周期中发生变化,产生基因型-时间特异型表型。例如,在衰老过程中,由于叶绿素的损失,红色区域的反射率增加(Schowengerdt,2012)。对于基于野外的表型分析,这些传感工具通常集成到地面或空中飞行器中(Araus等,2018年)。大多数HTP平台具有捕获纵向特征所需的空间和时间分辨率。然而,特定实验的需求和资源应驱动平台和传感器的选择,因为这些选择直接影响研究的规模和类型(Pauli等,2016b)。一些评论集中于HTP及其细微差别,如数据收集、数据处理和传感器类型(Fahlgren等,2015年;Rahaman等,2015年;Singh等,2016年;Tardieu等,2017年;Yang等,2017年;Zhao等,2019年;Reynolds等,2020年)。
最近报道了用HTP捕获的作物纵向性状的遗传控制。在温室里,Neilson等(2015)调查了高粱对水分限制条件和不同施肥水平的生长和动态表型反应。他们用激光扫描、RGB和近红外(NIR)相机定义和测量了几个性状,包括叶面积、茎生物量、高度、分蘖数和叶片绿度。在大麦中,多个传感器在温室中连续58天捕捉每日图像,测量可见光光谱、荧光光谱和近红外光谱,以便剖析干旱反应的表型成分(Chen等,2014年)。利用从分蘖过程中结合计算机断层扫描(CT)和RGB成像的成像系统提取的700多个性状,对水稻分蘖生长进行了检测(Wu等,2019年)。
由于地下成像的困难,基于田间的根系HTP比地上性状的HTP进展较少(Atkinson等,2019)。铲形法是一种用于根表型分析的高通量方法,已用于玉米、普通豆、豇豆和小麦等作物(Trachsel等,2011年;Burridge等,2016年;York等,2018年)。它包括从图像中提取几个特征。然而,它具有破坏性和劳动密集性,需要人工挖掘树根,这限制了它随时间推移捕捉重复记录的能力。最近,包括电阻层析成像、电磁感应和探地雷达在内的地球物理技术有助于以无损的方式识别和量化野外根(Shanahan等,2015;Whalley等,2017;Liu等,2018a;Atkinson等,2019)。然而,HTP根系表型分型更常见于受控环境中,该环境允许使用可实现根成像的替代生长系统,如rhizotrons、生长袋和透明人工生长介质(Atkinson等,2019年;Ma等,2019年)。为了模拟玉米的生长动态,Hund等(2009)每天对吸墨纸上生长的根系进行扫描。托普等(2013)利用盖伦胶培养基在不同生长日对水稻根系结构进行3D成像表型分析,以进行QTL检测分析。在植物科学中使用X射线CT和磁共振成像的最新进展使人们能够监测土壤中的根系结构和随时间变化的动态生长(Metzner等,2015年;Pfeifer等,2015年;van Dusshoten等,2016年;Pflugfelder等,2017年;Gao等,2019年)。关于根表型的更多细节和附加技术,见Atkinson等(2019年)。
纵向性状建模
植物生长和发育的特点是有几种表型变化,只有通过监测一段时间内的重复表型才能对其进行研究(Li和Sillanpäa,2015)。HTP平台允许以高时间分辨率跟踪特征,无论是随时间连续还是以离散间隔(Furbank and Tester,2011)。传统上,数学函数用于描述植物生命周期中性状的时间轨迹(Paine等,2012)。纵向性状的分析通常采用以下两种技术之一(Li和Sillanpä,2013):(1)平滑函数(如样条曲线;如van Eeuwijk等,2018;Oliveira等,2019a)或参数函数(如生长模型;如Paine等,2012)来拟合随时间变化的表型记录,为所有时间点提供内插值;或(2)通过估计函数系数重新参数化数据,然后在分析中使用这些系数来表示随时间变化的特征。无论哪种方法,都需要选择最适合特征轨迹形状的函数来精确估计曲线参数和结果。Paine等(2012)详细回顾增长模型,强调基本功能形式、优缺点。在本节中,我们将描述已成功用于适应作物改良目的的各种性状的主要功能。
植物生长的许多复杂性通常使用非线性生长模型来表示,这些模型解释了生长的时间变化,捕捉了年龄和大小依赖的生长(Paine等,2012年)。通常,植物生命周期内的生长模式遵循一个S型曲线(S型),其特征是最初缓慢生长,然后迅速增长,接近指数增长率,最后在达到饱和阶段时减慢(Yin等,2003)。S形曲线可以用S形函数来描述,如logistic、Gompertz、Richards或β函数(Gompertz,1815;Richards,1959;Yin等,2003;Poorter等,2013)。在这种情况下,Gompertz函数是Richard函数的一个特例;Richard函数是最古老的生长模型之一,经常用于适应不同物种的各种生物过程(Tjørve和Tjørve,2017)。Gompertz函数用于描述玉米粒中的生物量积累(Meade等,2013年)、大麦生物量(Chen等,2014年)以及小麦(Camargo等,2018年)和高粱(Neilson等,2015年)中的各种纵向性状。Logistic函数更常用于渐近形式来描述生物生长过程对生物量、冠层覆盖率、冠层大小、体积、长度和面积等性状的时间依赖性(Thornley等,2005;Paine等,2012)。逻辑函数可以有一个、两个、三个、四个或五个参数(Tessmer等,2013年)。单参数和双参数logistic模型过于简单,往往无法很好地拟合数据,但仍在一些研究中使用(例如,Paine等,2012年;Tessmer等,2013年)。三参数logistic函数(3PL;也称为Verhulst或自催化生长函数)可能是最流行的植物生长分析模型。在高粱水分限制试验中,3PL模型在各种乙状体型模型中表现最好,以适合预测的叶面积(Neilson等,2015年)。Sun等(2018年)使用3PL模型拟合了棉花的冠层高度、预计冠层面积和植株体积的生长曲线。在小麦方面,Baillot等(2018)通过拟合第三方物流模型估计各种谷物灌浆参数。四参数logistic(4PL)模型比3PL模型更灵活,因为它的约束更少(Pinheiro和Bates,2000)。Camargo等(2018)对小麦整个生命周期的面积、高度和衰老的平均值进行了表型分析,发现4PL模型最适合纵向数据。五参数版本(5PL)提供了最大的灵活性并适应了不对称性(Gottschalk和Dunn,2005),尽管与较低数量的参数相比,其复杂性更高。
许多生物学曲线不能用sigmoid函数来描述。幂律(也称为异速生长)函数是一种不产生S形曲线的非渐近、非线性增长模型(Marquet等,2005年)。它们通常用于生态学中预测植物群落的关系(Chen和Shiyomi,2019)。它有效地捕捉了生长的时间变化,因为它允许相对增长率随着时间的推移和生物量的增加而减慢(Paine等,2012年)。幂律函数用于拟合不同氮水平高粱的预计叶面积数据(Neilson等,2015),以及拟南芥的叶长和花环面积(An等,2016)。
线性模型,如正交多项式和样条函数,也用于拟合纵向性状(Oliveira等,2019a)。多项式在作物生长模型中的应用始于20世纪60年代,作为拟合生长数据和提供个体发生漂移的清晰图像的函数方法(Vernon和Allison,1963;Hughes和Freeman,1967;Poorter,1989)。这些功能的优点之一是它们不需要预先知道表型的纵向形状。因此,只要选择多项式的不同阶数,它们就可以用来拟合任何形状的生物数据。尽管多项式函数在时间上不是线性的,但它们的参数是线性的,因此,可以利用线性模型可用的推理方法(Yang等,2006年)。例如,三次多项式函数已用于描述水稻(Jones等,1979;Shi等,2015)、小麦(Gebeyehou等,1982)、大麦(Leon和Geisler,1994)和红花(Koutroubas和Papakosta,2010)中的谷物生长。这种方法的主要困难之一是选择合适的多项式次数来拟合数据,同时避免虚假的向上或向下趋势或过度拟合或低估数据(Paine等,2012年)。
正交多项式在拟合生物曲线方面特别受欢迎,因为它们的系数之间的相关性要低得多,并且提供了协方差矩阵的估计,而协方差矩阵在各种数据集上往往更为稳健(Schaeffer,2004)。Legendre多项式代表简单的正交多项式,并已成功地用于家畜育种计划(如Albuquerque and Meyer,2001;Oliveira等,2017,2019b;Brito等,2017)和植物研究(e.g.,Yang等,2006;Yang and Xu,2007;Campbell等,2018;Momen等,2019)中的纵向性状。
与正交多项式相比,样条函数为纵向特征建模提供了更灵活的选择(van Eeuwijk等,2018)。样条曲线是分段多项式函数,在称为节点的特定点连接(de Boor,1980)。对于纵向数据,这些节点表示数据收集间隔内的时间点(Li和Sillanpäa,2015)。样条曲线更大的灵活性是由于每个线段的独立性,它们可以具有相同或不同的多项式次数,以适应轨迹的突然变化(Meyer,2005b)。样条函数的一种特殊类型是基样条或B样条(de Boor,1980),广泛应用于动物育种(Meyer,2005b;Oliveira等,2019a)。样条曲线的另一个版本是P样条曲线,它将B样条曲线与相邻B样条曲线系数的不同惩罚相结合,从而得到更平滑的曲线(Eilers和Marx,1996;Meyer,2005b)。
样条函数最近被用来模拟作物的纵向性状。例如,在一个二倍体马铃薯定位群体中,在生长季节的几个点上对hallm衰老进行了评估,并使用P样条拟合(Hurtado等,2012年)。Montesinos-López等(2017)在产量预测模型中使用B样条函数拟合小麦冠层高光谱波段。B样条曲线还模拟了有限水环境中水稻的时生茎生物量(Momin等,2019年)。
统计遗传模型
植物育种主要是从大量候选品种中筛选出新的遗传优势品种。在开发最佳线性无偏预测(BLUP;Henderson,1974)之前,使用表型值的简单算术平均值或最佳线性无偏估计(BLUE,将基因型视为固定效应)进行选择。BLUPs基于混合线性模型,目前是植物和牲畜物种遗传评估最常用的方法(Piepho等,2008;Mrode,2014)。在混合模型框架下,基因型被随机拟合,基因型效应用BLUP估计。BLUP方法的主要优点是提高了遗传效应的预测精度。这是因为平均值的收缩取决于可用信息量(从个人和/或其亲属处获得),这将调整极端高和低的表现,使之接近总体平均值,也包括了来自系谱或基因组信息的相关基因型之间的遗传相关性(Piepho等,2008)。后者不是模型的要求,因此BLUP最简单的情况不使用关系矩阵,基因型被认为是独立的随机变量(Yan和Rajcan,2003;Cullis等,2006)。Piepho等(2008)介绍了植物育种中BLUP分析的几个例子。
虽然很少使用,系谱数据是一个简单和廉价的信息来源,植物育种家利用个人之间的关系,以更准确地估计育种价值。基于系谱的BLUP已成功应用于各种作物(Bromley等,2000年;Rutkoski等,2016年;Basnet等,2019年;Moreira等,2019年),并促进了基因进步率的重大进步。
基因组信息的包含为基因型间的遗传相关性提供了更准确的估计,尤其是关于孟德尔抽样效应(Habier等,2007)。基因组信息追踪等位基因遗传,捕捉个体间共享的基因组小片段,即使它们在系谱上显然不相关(Velazco等,2019年)。植物育种家广泛采用基于基因组的BLUPs(GBLUP)进行基因组选择(Auinger等,2016;Crossa等,2017;Schrag等,2019)。尽管基因组信息很有前途,但在实践中,由于基因分型成本、物流或两者兼而有之,高密度基因分型并不总是适用于育种计划中的所有基因型(Habier等,2009年)。另一种方法是根据系谱和基因组关系构建一个联合关系矩阵来预测基因型和非基因型材料的blup,称为单步GBLUP(ssGBLUP;Misztal等,2009;Aguilar等,2010;Christensen和Lund,2010)。这种方法整合了两种关系矩阵,将它们在遗传相关性上的不同但又互补的信息联系起来,为基因型间的遗传相似性提供更可靠和准确的估计。基于ssGBLUP方法的基因组育种值通常用于动物育种(Aguilar等,2010;Legarra等,2014;Meuwissen等,2015;Guarini等,2019a,b;Oliveira等,2019c),并且它们在植物育种中的应用也开始流行(Ashraf等,2016;Cappa等,2019;Velazco等,2019)。在高粱中,Velazco等(2019)证明该方法提高了复杂性状的预测能力,尤其是对于遗传力估计值较低、在发育阶段后期测量的性状,或是难以或昂贵的性状。
对于纵向性状,我们可以将每个时间点的BLUPs分别计算为具有独特表型的个体性状;然而,这些方法并不直接调查和比较随时间的变化趋势(Littell等,1998)。这使得当BLUPs因遗传力估计值的差异而出现不同收缩时,很难考虑大量的时间点并抑制数据比较。纵向性状曲线和模式拟合的主要目标是考虑多个时间点(如生长)发育过程中的可变性。已开发出分析方法,以更好地利用BLUP上下文、简单方差分析或两者兼而有之(Littell,1990;Meyer和Kirkpatrick,2005;Mrode,2014)。我们将在这篇综述中讨论主要的方法。
重复性模型
随着时间的推移记录的单个测量值可以被视为相同特性的重复记录。这就是所谓的重复性模型。该方法隐含两个关键假设:(1)同一基因型(或个体)内不同测量值的方差总是相等的,而不考虑记录之间的时间间隔;(2)所有测量值之间的遗传相关性都等于1,即:。,不同时间点的测量结果都受到相同基因的影响(Falconer和Mackay,1996;Meyer和Hill,1997;Littell等,1998)。在这种情况下,简单的重复性模型是标准的方法。
最简单的方法之一是在时间设计中使用分裂图进行重复测量方差分析(ANOVA),该方法将基因型作为一个整体的绘图单元,将特定时间的基因型作为一个子图单元(Rowell和Walters,1976;Littell,1990)。值得一提的是,由于时间是实验中的一个不能随机化的因素,这不是一个真正的分裂图设计。此外,该方法假设数据在所有重复测量中具有相等的方差(同构性),并且所有测量对具有相同的相关性(即复合对称性),这对于大多数作物数据集来说是不现实的假设。然而,Huynh和Feldt(1970)表明,假设相关的任何两个治疗测量值之间的差异方差相等,足以进行分裂图方差分析。在这种情况下,如果数据违反Huynh和Feldt条件,子图单元及其相互作用的F统计量将膨胀。因此,这种方法容易出现较高的I型错误率,从而得出结论:当影响不显著时,其影响具有统计学意义(Scheiner和Gurevitch,2001;Fernandez,2019)。
在混合模型的背景下,指定模型中的随机和固定效应将取决于研究目标、数据结构和可以作出的假设。通常,时间被认为是一个固定的影响,因为它不是随机的实验。简单的重复性模型已用于计算HTP衍生的纵向性状的BLUPs和BLUEs,用于基因组预测,如小麦(Rutkoski等,2016;Sun等,2017)。
多性状模型
通常,HTP平台用于生成不同“年龄”或发育阶段的植物表型,测量/分析日期之间的表型平均值和方差随时间而变化。因此,假设纵向性状的遗传控制将随着时间的推移而不同,将纵向记录/表型描述为不同的性状。在这种情况下,分析纵向特征的常见方法是多特征分析,将每个时间点视为不同的因变量(Sun等,2017年)。
多元方差分析(MANOVA)是前面提到的方差分析(ANOVA)的一个扩展,它避免了重复测量方差分析中出现的协方差结构问题。然而,它仍然要求被比较的组之间的协方差相等,并且随着时间的推移平衡数据。此外,MANOVA假设多元正态分布。有人提出了替代方法来克服这些限制(Krishnamoorthy and Lu,2010;Krishnamoorthy and Yu,2012;Konietschke等,2015),但MANOVA在实践中的应用仍然有限。
在BLUP背景下,多性状混合模型首先由Henderson和Quaas(1976)实现,利用性状间的遗传和残差协方差分析两个或多个相关性状(Speidel,2011)。使用这种方法,可以直接建模多个因变量的协方差结构,并有效地处理缺失数据(Mrode,2014)。与单一性状重复性模型相比,使用多性状模型(MTM)的主要优势在于,由于遗传协方差和残差协方差之间的数据有更好的联系,因此每个性状的评价精度都有所提高(Colleau等,1999;Mrode,2014)。这种数据结构与高度遗传性状和一个或多个性状缺失记录的基因型相结合,有利于预测遗传力较低的性状(Mrode,2014)。在小麦中,MTM用于预测冠层温度和归一化差异植被指数的BLUP(NDVI;Sun等,2017),以及绿色NDVI的蓝色(Juliana等,2018)。
多性状混合模型存在一些缺点。例如,高维纵向数据(例如,长时间内多次记录的特征)可能导致具有高计算要求的过参数化模型(Speidel,2011)。连续测量之间也有可能存在高度相关性,这会降低显著性检验的效力(Foster等,2006年)。有一些方法可以降低MTM的维数,我们将在下面讨论这些方法。值得注意的是,在应用这些方法时,适当的模型仍应足以描述数据,解释平均值和协方差随时间的变化,并估计必要的遗传参数(Mrode,2014)。
表型记录的典型转换是通过特征值分解消除性状间自相关的一种常用方法(Meyer和Hill,1997)。一组高度相关的度量将提供接近于零的特征值。在典型转化表型的框架下,将原始观测值转化为一组新的响应变量,并选择特征值最高的变量组成新的性状组合。MTODE与2014年后的新结果进行了拟合。Grosu等(2013)强调,只有在所有性状的所有个体都被记录下来的情况下,才能使用典型转化,并且每个性状的模型需要是相同的,只考虑两个随机效应:残差效应和遗传效应。另一种适合MTM的策略被称为“弯曲”(Thompson和Meyer,1986;Meyer,2019)。它并不要求对所有个体的所有特征进行测量。这个过程通过一个弯曲因子来压缩性状间的协方差,从而产生一个正定的协方差矩阵,从而迫使性状之间的自相关性降低。
主成分分析(PCA)和因子分析(FA)方法往往更适合于对大量性状进行降维。FA确定了与变量之间相关性相关的共同因素,称为潜在变量(Mrode,2014)。另一方面,PCA方法旨在创建独立变量(主成分),以解释数据集中的最大变化量(Mrode,2014)。此后,主成分或潜在变量成为MTM中新的因变量。这两种方法都用于降低动物(Macciotta等,2017;Durón-Benítez等,2018;Vargas等,2018)和植物(Kwak等,2016;Yano等,2019)的纵向特征分析维度。
根据定义,纵向特征是沿着时间轨迹的,整个数据集可以用描述轨迹曲线形状的参数来表示(例如,生长曲线)。这些参数可以成为MTM中新的因变量或综合协方差结构(Speidel,2011;Oliveira等,2019a);然而,迄今为止我们讨论过的纵向数据分析方法都没有考虑到遗传和环境方差可能随时间而变化(Meyer,1998,2005a;奥利维拉等,2019a年a)。此外,这些方法仅限于测量性状的时间点。随机回归模型(RRMs)提供了一种克服这些局限性的方法(Schaeffer,2004)。
随机回归模型
纵向性状的一个共同特征是重复测量之间的协方差依赖于它们之间的时间间隔。换言之,在较近的时间收集的测量值将比相距较远的测量值具有更高的相关性。Kirkpatrick等(1990)提出了使用协方差函数分析纵向数据的概念,通过将特征的协方差结构描述为时间函数。本质上,这种方法将一组正交函数拟合到随时间变化的记录的给定协方差矩阵中(Meyer和Hill,1997)。
一阶自回归分析(AR-1)是一种很有吸引力的建模随时间变化的表型协方差结构的方法(Apiolaza and Garrick,2001;Yang等,2006;Vanhatalo等,2019)。它假设同质的方差和相关性随着测量被更大的时间间隔分开而呈指数下降。因此,在时间上较近的两个测量值将比相距较远的测量值具有更高的相关性(Wade等,1993;Littell等,2000;Piepho等,2004)。AR-1结构仅适用于在等间隔时间点进行的测量(Wang和Goonewardene,2004)。尽管这在农业研究中,特别是在田间试验中难以满足这一要求,但如前一节所述,对纵向性状进行建模将使数据在时间上均匀分布,从而验证AR-1方法。另一种方法是使用空间幂协方差结构,允许时间点之间的间隔不相等(Wang和Goonewardene,2004)。
请注意,到目前为止,我们假设随时间的变化是同质的。也有协方差结构来处理异质方差,例如一阶前相关结构(Wolfinger,1996)。因此,Legendre正交多项式和样条曲线是更具吸引力的协方差函数,因为它们在回归参数之间产生相对较小的相关性,并且可以灵活地根据轨迹曲线的形状进行调整(Schaeffer,2004;Meyer,2005a,b;Bohmanova等,2008;Pereira等,2013;Brito等,2018)。在植物中,各种性状的不同协方差结构已经过评估(Apiolaza等,2011年;Sun等,2017年;Campbell等,2019年)。
Meyer和Hill(1997)证明协方差函数与RRMs等价。Schaeffer(2016)报告说,协方差函数有助于预测随时间变化的变化,而RRM是估计协方差函数和确定轨迹中个体差异的一种方法。RRMs提供了一个稳健的框架,用于在每个时间点使用协方差或在每个时间点之间的协方差来建模特征轨迹,而不需要假设恒定方差或相关性。RRMs为研究性状下发育行为的时间遗传变异提供了见解(oliveria等,2019a)。尽管计算成本增加,但与其他方法相比,RRMs可产生更精确的育种值(Sun等,2017年;Oliveira等,2019a)。
RRM最初被引入动物育种中,以克服MTM中的过参数化模型,自那时起,它们被广泛使用(Jamrozik和Schaeffer,1997;Schaeffer,2004;van Pelt等,2015;Englishby等,2016;Oliveira等,2019a)。总之,RRMs将描述性状轨迹的函数参数设置为模型中的固定和随机效应,因此比MTM的参数更少(Schaeffer,2016;Oliveira等,2019a)。因此,在RRMs中,对于纵向性状,随机参数并不直接对应于个体的遗传值。相反,它们对应于代表每个基因型纵向性状时间轨迹的回归系数集的遗传值(Turra等,2012年)。可以从回归系数的遗传(co)方差矩阵和与所用函数相关的所有时间点的独立协变量矩阵分析得到区间内所有时间点的遗传参数和育种值估计值(Oliveira等,2019a)。当在所有模型中使用相同的固定效应时,应使用实际数据检查不同的协方差结构,并根据统计方法选择最适合模型的结构,如Akaike信息准则(AIC、Wang和Goonewardene,2004)或贝叶斯信息准则(BIC、Neath和Cavanaugh,2012)。最后,利用所选择的协方差结构估计感兴趣的效果。一般情况下,RRM可描述为如下(Oliveira等,2019a):
为基因型的第次重复记录(如种植后不同天数的冠层覆盖率);为第组的固定回归系数;为第个基因型加性遗传效应的第个随机回归系数;是第个基因型的永久环境效应的随机回归系数; 是残余效应;, 和 是与描述时间(例如,种植后的天数)的函数相关的协变量,假设相同的函数(例如,勒让德多项式)具有不同的阶数、和(例如,线性、二次、立方)(Oliveira等,2019a)。
随机回归模型已被证明是在众多家畜育种计划中对纵向性状进行遗传评估的最有效的选择(如Oliveira等,2019a所述),但在植物育种中应用RRMs的例子并不多,尤其是在结合基因组信息时。Sun等(2017)利用RRMs连续捕捉了小麦生长阶段HTP性状的变化。坎贝尔等(2018)使用RRMs预测水稻多样性小组中的芽生长轨迹,并证明与单时间点模型相比,预测精度有所提高。基于相同的水稻数据集,Campbell等(2019)利用RRMs识别具有时间特异性效应的QTL。多性状RRM也是可行的,并已在动物育种计划的几个环境中实施(Nobre等,2003年;Muir等,2007年;Oliveira等,2019b,c)。
纵向性状基因组选择的实现
Meuwissen等(2001)引入了基因组选择(GS)的概念,其基础是密集全基因组基因分型的标记将与影响感兴趣的数量性状的qtl连锁不平衡。因此,它们可以用于选择,而不需要识别QTL或功能多态性。人们对GS的理解不断加深,因为人们知道除了标记和QTL之间的连锁不平衡所捕获的信号外,标记还会携带关系信息(Habier等,2007;Meuwissen,2009)。
在GS中,基因组和表型数据被组合在一个训练群体中,从而能够开发预测方程,该预测方程可用于测试(或目标)群体中的选择候选人,该群体由基因型但非表型的个体组成(Crossa等,2017年)。因此,GS可以在早期(没有测量)更精确地选择个体。这通过减少品种发育所需的时间和每个周期的成本来提高遗传增益率。HTP能够生成高质量的定量数据,并在生长季节有效地描述大量的训练种群。GS和HTP的结合有可能提高精度和效率,同时降低成本和最小化劳动力(Araus等,2018年)。
在GS的纵向框架下,时间育种值的预测可以在生长季节的特定时期进行有针对性的选择,或者选择具有理想性状轨迹的个体。此外,纵向性状可作为次要性状,以改善产量等经济终点性状的基因组选择(Sun等,2017)。坎贝尔等(2018)使用具有二阶勒让德多项式的RRMs对水稻多样性面板中的茎生长轨迹进行系谱和基因组预测。他们证明了与单时间点模型相比,使用RRM的预测精度有所提高。此外,作者还报道了基因组RRMs在使用早期测量的子集来预测未来表型方面是有用的。水稻的另一项研究使用RRMs,利用Legendre多项式和B样条基函数预测受控和水分限制条件下的预计枝梢面积(Momen等,2019年)。在拟合这两个函数之前,他们调整了原始的表型测量,以获得用于下游遗传分析的蓝色。总体而言,与基线多性状模型相比,RRMs具有更高的预测精度。此外,B样条曲线的表现略好于勒让德多项式(Momin等,2019年)。
目前,植物育种GS中使用的统计模型通常是单性状(单变量),没有利用不同时间点收集的性状之间的遗传协方差或表型记录(Jia等,2012)。然而,通过考虑性状间的相关性,GS的MTM表现优于单性状模型,从而提高了预测精度、统计能力、参数估计精度,并减少了性状选择偏差(Jia等,2012年;Guo G.等,2014年;Montesinos-López等,2016年、2019年)。这些优势在产量等低遗传力性状与高遗传性状遗传相关的性状上表现得更为明显(郭G等,2014;Jiang等,2015)。最近,CIMMYT(2019)小麦育种计划1中的研究表明,通过合并来自用UAV测量的所谓次级性状的HTP纵向数据,GS的准确性大大提高(Rutkoski等,2016;Montesinos-López等,2017;Sun等,2017,2019),随着HTP和基因分型变得更容易获得,一种实施起来相对便宜的方法(例如,通过测序进行目标基因分型;Pembleton等,2016年)。此外,次级性状也有助于预测早期生长阶段的主要性状,因为它们通常可以在主要性状(如谷物产量)之前表现出来(Sun等,2017年)。因此,纵向性状可以作为次要性状来提高GS的准确性,有助于更好地理解应激反应和发育的生物学机制。如前一节所述,从纵向性状中提取遗传信息有多种方法,所采用的方法将决定它们在GS中的应用。
Rutkoski等(2016)将HTP冠层温度(CT)、绿色归一化差异植被指数(GNDVI)和红色归一化差异植被指数(RNDVI)作为小麦产量GS中的次要性状。首先,他们使用可重复性模型估计纵向性状的BLUEs,并将其用于MTM和产量,用于系谱和基因组预测。他们发现,与单性状模型相比,利用系谱和基因组信息建立的多性状模型提高了谷物产量的准确性。在另一项研究中,CT和NDVI还提高了预测小麦产量的能力(Sun等,2017)。然而,除了重复性模型之外,作者还使用MTM和RRMs计算次要性状的BLUPs,以比较它们的效率。在包含次要性状时,预测能力平均提高70%,RRM和MTM的预测能力优于重复性模型。同样在小麦中,Juliana等(2018)利用不同日期测得的产量蓝和GNDVI进行系谱和基因组多性状预测模型。他们发现,包括GNDVI提高了预测精度。Sun等(2019)使用带三次平滑样条的RRM预测小麦CT和GNDVI的BLUP。在第二步中,他们使用BLUPs作为次要性状和籽粒产量作为GS的因变量。利用次级性状对产量的预测精度平均提高146%,前期测定的次要性状对提高预测精度最为有利。Montesinos-López等(2017)和Crain等(2018)在小麦方面也取得了类似的结果。Howard和Jarquin(2019)利用SoyNAM数据集(Song等,2017;Diers等,2018)对林冠覆盖率和产量之间的遗传协方差进行了建模,并证明,基于不同的交叉验证方案,当模型中同时包含冠层和标记信息时,预测能力最高。另外两篇论文报告了相同数据集的类似改进(Xavier等,2017年;Jarquin等,2018年)。
鉴于HTP能够同时收集多个时间性状,多性状RRMs(MTRRMs)可以成为多个纵向性状联合基因组预测的有力工具(oliveria等,2016)。此外,MTRRMs可以结合不同的功能来描述同一模型中的不同性状,并估计不同性状间随时间的遗传相关性(oliveria等,2016)。在动物中,MTRRM是山羊(Oliveira等,2016)、牛(Oliveira等,2019c)和水牛(Borquis等,2013)的产奶量和乳成分的联合遗传预测的一种可行替代方法。最近,与单一性状RRMs相比,在20天内每天记录的预测枝面积和水分使用的mtrrm显示出更好的预测能力(Baba等,2020年)。
在动物育种和多阶段植物育种分析中,通常使用去灰遗传值作为基因组预测的伪表型。Oliveira等(2018)比较了纵向性状的不同退化方法。然而,这种多步骤方法可能会导致较低的精确度、偏差和信息丢失(Legarra等,2009年;Kang等,2017年)。考虑到ssGBLUP和RRMs在遗传评价中的优势,整合这两种方法是增强纵向性状基因组预测的有效策略(Kang等,2017)。Koivula等(2015)报告说,与传统的基于系谱的RRM相比,使用ssGBLUP RRM预测北欧红奶牛产奶性能的准确性更高,偏差更小。Kang等与2017年的其他情景相比,GBRRP模型的精确度最高(包括2017年)。总之,基于RRMs的ssGBLUP的使用可以提高奶牛试验日性状基因组预测的可靠性(Koivula等,2015;Kang等,2018;Oliveira等,2019c),并且可能在作物中。
检测与纵向性状相关的QTL和因果变异
基因组学研究的主要目标之一是通过识别遗传变异,利用基因型预测表型变异。有机体的发展是基因和环境因素相互作用的结果(Wu和Lin,2006)。与单时间点测量不同,研究纵向性状作为时间的函数可以全面评估作物的生长和发育(例如,年龄代谢率;Ma等,2002年)。然而,在植物中,对于纵向性状的QTL分析或全基因组关联研究(GWAS)的检测仍然是在每个时间点独立进行的。例如,Würschum等(2014)分别在离散时间点使用连锁作图来识别与小黑麦株高相关的时间特异性QTL。在棉花中,在几天的研究中,分别使用冠层相关性状来绘制加性QTL效应及其与环境的相互作用(Pauli等,2016a)。在大豆中,GWAS用于识别种植后14-56天内每个单独冠层覆盖测量的QTL(Xavier等,2017年)。Zhang等(2017)分别在16个时间点对玉米的几个生长相关性状进行了QTL定位。同样在玉米中,对单个时间点的分析发现,在不同的生长阶段,控制株高的同时存在不同的QTL(Wang等,2019年)。利用时间点生长相关特征,Knoch等(2020)在油菜中发现了时间QTL的证据。这些静态检测虽然有用,但提供了遗传控制的简化视图,忽略了性状形成的时间变化和发育特征(Wu和Lin,2006)。此外,在动物中,已经证明纵向性状的表型或加性多基因效应在整个表型表达中都不是恒定不变的(Szyda等,2014;Brito等,2018;Oliveira等,2019a)。
作为另一种选择,Ma等(2002)提出了一种动态模型,称为功能定位,以定位与纵向性状整个发育过程相关的qtl。如前所述,纵向性状可以用曲线表示,由给定时间内线性或非线性函数的几个参数描述。功能定位背后的想法是基因型间曲线参数的差异可能暗示了基因控制表型轨迹的时间模式(Ma等,2002)。因此,功能定位可以检测QTL表达的时间和持续时间(Wu等,2004)。Li和Sillanpä(2015)提出了几种功能映射建模策略,并对其进行了审查。其中一种方法(两阶段法)包括使用线性和非线性模型对整个表型轨迹进行建模,并将这些参数用作QTL检测的潜在性状表型(Li和Sillanpä,2015)。通常,研究人员对单个时间点进行分析,然后采用这种两阶段方法来推导曲线参数。Busemeyer等(2013)使用logistic函数拟合647个双单倍体小黑麦品系的大型作图群体不同发育阶段的高通量衍生生物量。除了个别日的GWAS外,他们利用logistic曲线的参数进行了多性状功能GWAS,以揭示生物量调节的时间遗传模式。类似的方法用于评估玉米系的图像生物量(Muraya等,2017);春大麦的数字生物量积累(Neumann等,2017);小麦的面积、高度和衰老(Camargo等,2018)。坎贝尔等(2017)计算了360份水稻品种在移栽后19至41天的预计芽面积。他们使用幂函数模拟纵向表型(Paine等,2012年),并将参数用作多性状GWA中的伪表型。为了揭示马铃薯衰老的时间动态,Hurtado等。(2012)采用P样条曲线作为平滑曲线,并使用曲线参数识别QTL。
Kwak等(2014)提出了两种基于简单回归的QTL定位方法,分别对每个时间点进行分析,然后结合跨时间点的测试统计数据确定总体显著性。后来,Kwak等(2016)提出了一种改进的方法,将观察到的纵向特征替换为平滑近似,然后通过PCA进行维数缩减。利用主成分对数据进行多性状QTL分析。Muraya等(2017)实施了Kwak等建议的方法(2016年)。他们使用B样条曲线平滑表型,然后用PCA进行变量缩减,并按照Kwak等的方法进行了多QTL分析。(2014)揭示玉米生长动态的潜在遗传变异。模型C4禾本科狗尾草的时间高度QTL也通过这种方法得到了揭示(Feldman等,2017)。长期以来,动物育种家一直使用PCA进行纵向性状分析,以合成复杂的模式并减少计算量大的多性状QTL检测(Macciotta等,2006年、2015年、2017年;Zhang等,2018年)。
RRMs提供了一个更好的选择来适应纵向特征,并已广泛应用于动物的遗传评估(Ning等,2017;oliverira等,2019a)。随机回归方法揭示了SNP随时间的影响,因为它能够识别持久的和特定时间的瞬时qtl。此外,与其他方法相比,RRMs提高了检测qtl的统计能力,因为它们利用了一整套原始纵向表型(Ning等,2017),并且可以在发育曲线的特定区域捕获具有显著影响的qtl,尽管这些qtl的影响总体上可能很小。RRMs还可用于检测基因与环境相互作用中的QTL(Lillehammer等,2007;Carvalheiro等,2019)。
Das等(2011)基于RRMs提出了一种称为功能性GWAS(fGWAS)的方法,该方法将GWAS和描述生物过程的数学模型相结合。总之,fGWAS估计每个基因型和时间点的不同SNP效应的平均值,然后进行假设检验,以确定SNP在时间过程中是否具有任何加性或显性效应。这种方法的主要缺点是只进行单轨迹分析。后来,Ning等(2017)提出了对fGWAS的修正,通过分别估计时间依赖的群体平均数和SNP效应,而不是直接拟合它们。他们还通过将snp作为协变量(fGWAS-C)或因子(fGWAS-F)来扩展模型,以捕捉复杂性状的时变多基因效应。然而,与其他模型相比,由于混合模型方程的高维性,他们的方法计算效率低下。随后,宁等。(2018)提出了一种快速纵向GWAS方法,使用特征分解将协方差矩阵转换为对角矩阵。这样,每个SNP测试都可以用加权最小二乘模型来求解模型。
据我们所知,坎贝尔等(2019年)是第一个在主要连作作物中使用RRM GWA的公司。他们使用勒让德正交多项式从RRMs获得的基因组育种值来评估早期营养生长期间水稻茎生长的遗传结构。他们发现,与单时间点分析相比,瞬时效应和持续效应都与地上部生长有关,与RRM的关系更大。
挑战和未来发展
为了利用表型和分子技术的进步,需要在开发育种人员能够操纵系统以理解基因型和表型之间关系的方法方面取得更大的进展。由于环境系统和/或随着时间的推移,潜在的生物变化可以用纵向数据捕捉。主要的挑战是以一种有意义的方式综合不同层次的信息,以了解发育压力的下游影响和对育种的影响(Harfouche等,2019年)。
非加性效应与GxE
非加性遗传效应对复杂性状的总遗传变异有显著贡献。包含优势效应的预测模型代表了育种计划的重要组成部分,重点关注杂交种群、杂交生产和无性繁殖物种(de Almeida Filho等,2019)。还有大量证据表明上位性在各种作物复杂性状的遗传结构中的重要性(Guo T.et al.,2014;Monir and Zhu,2018)。将非加性效应整合到统计模型中可以提高预测精度并比简单的加性模型检测到更多的QTL,尤其是当非加性方差占遗传方差的很大比例时(Bouvet等,2016;Bonnafous等,2018;Liu等,2018b,2019;Monir and Zhu,2018;Varona et al。,2018年)。然而,这些研究仅限于单时间点性状。对于纵向性状而言,建立完整的遗传模型(包括加性效应和非加性效应)可能具有挑战性,需要密集的标记面板来估计时间相关(co)方差,以及对遗传方差成分进行划分。然而,纵向性状的完整遗传模型可能会影响未来育种策略的设计和实施。
纵向性状的时间动态导致了随时间而改变表型的相互作用。这可能是因为基因-基因和基因-环境相互作用(GxE)是时间或年龄依赖的,需要进行适当的建模(Fan等,2012)。在这种情况下,环境描述符应该作为性状表型进行多次测量。由此得到的模型是一个具有多种交互作用的多特征、多环境模型,在这种模型中,由于被估计参数的数量增加,可能会出现计算问题。研究表明,RRMs可以同时解释动物育种中纵向性状的加性遗传效应和一定程度的GxE,它允许对时间相关性状和环境相关协变量的整个轨迹上的遗传(co)方差分量和育种值进行估计(Brügemann等,2011年;桑塔纳等,2016年;博卢利等,2019年)。因此,在植物育种中,该模型可以为特定环境下决定性能的机制提供相当多的生物学见解,使其成为今后研究的一个有价值的方法。
互补的“经济学”技术
“组学”技术的迅速发展使得为许多作物物种生成大规模的“组学”数据集,为研究和改进复杂性状提供了新的机会。在这篇综述中描述的不同方法提供了有价值的工具来结合表型和基因组学数据来揭示纵向性状的潜在遗传基础。然而,当前的一个挑战是整合额外的“组学”技术(例如转录组学、元基因组学、蛋白质组学、代谢组学、表观基因组学),以提供一个整体的多组学方法来研究重要农艺性状的生物学机制及其对环境胁迫的响应。
最近,结合“-omics”信息的方法已在一些作物中用于研究单点性状的表型网络,例如,精确定位候选基因和/或位点并预测表型变异(Acharjee等,2016;Li等,2016;Das等,2017;Sheng等,2017;Pandey等,2018;Jiang等,2019)。迄今为止,有关作物纵向性状的详细的“组学”数据集的荟萃分析还很有限。Baker等(2019)描述了甘蓝型油菜株高发育动态的基因组结构、转录组表达网络和生长曲线表型变异之间的机械联系。多组学方法的结合似乎也有希望阐明模式植物和作物的衰老过程(Großkinsky等,2018)。当联合建模纵向“-omics”数据(一种或多种类型的“omics”数据随时间变化)时,统计分析变得更具挑战性。一些关键点可以在Sperisen等中找到。(2015年)。总的来说,需要调整方法学和实验设计,以探索与生物过程的全球进化有关的过程,例如生长和发育。尽管存在所有这些挑战,但综合方法可以提高分析能力,找到真正的因果变异、调控网络和路径。反过来,这些可以被纳入GS和育种计划,以加速遗传增益(Suravajhala等,2016年)。
深度学习
深度学习(DL)是一种功能强大且高度灵活的机器学习算法类,其基于非线性分层学习器中包含多个层次的表示学习方法(Lecun等,2015)。本质上,DL是人工神经网络(ANN)的高级版本,具有多个隐藏层,旨在模拟人脑功能(Patterson和Gibson,2017)。
深度学习已经证明了其在生物科学不同领域的应用,例如疾病诊断(Gao等,2018)、多组学数据整合(Chaudhary等,2018)、预测DNA和RNA结合特异性(Trabelsi等,2019年)以及最近在植物育种基因组预测(Ma等,2018年;Montesinos-López A.等,2018年;Montesinos-López O.A.等,2018年;Montesinos-López等,2019年)。邹等(2019)和Pérez Enciso和Zingaretti(2019)提供了基因组学中DL的引物。人们对植物育种,特别是预测的DL方法越来越感兴趣,这可能是因为它具有强大的学习能力,能够学习隐藏在大数据中的预测因子和响应之间的复杂非线性关系,与其他方法相比,通常具有更高的精确度(montecinos-López A.等,2018年;Pérez Enciso和Zingaretti,2019年;Zou等,2019年)。需要指出的是,尽管DL可以处理复杂的场景并达到最先进的精确度,但它需要领域知识和大规模数据集,而对底层生物学的解释比标准统计模型更具挑战性(Zou等,2019)。
在DL类中,递归神经网络(RNN)是为序列或时间序列数据而设计的(Lecun等,2015),可能是对纵向特征建模的最合适的结构。RNN可以被认为是一种存储状态,它保留了网络所看到的先前数据的信息,并根据新的信息更新其预测。因此,除了预测外,RNN还具有捕获长期时间依赖性的能力(Che等,2018)。最近,RNN在时间序列或序列数据的许多应用中取得了惊人的成果,特别是在人文科学领域(Azizi等,2018;Che等,2018;Lee等,2019;Sung等,2019;Zhong等,2019)。尽管RNNs具有许多优点,但据我们所知,RNNs还没有用于植物育种中的基因组预测或纵向性状QTL定位。在此背景下,多性状分析的多功能DL模型(Montesinos-López O.A.等,2018年)、多环境分析(Montesinos-López O.A.等,2018年)和混合表型(二进制、有序和连续;Montesinos-López等,2019)的同步预测已经成功实施。这种情况不仅令人鼓舞,而且可能导致将来将DL和RNNs整合到作物纵向性状分析中。DL是一种强有力的方法,它有可能改变植物育种的许多领域,因为它有潜力处理本综述中强调的所有复杂问题。不用说,还需要进一步的创新和技术评估,使DL能够充分处理种植育种数据的独特特性。