https://mp.weixin.qq.com/s/Civ7HUk1z94Bi36U6te2Nw
https://mp.weixin.qq.com/s/LRgBQS2z2jDBddZ_jnQDzA
2023年3月16日,Nature Plants 在线发表了中国科学院大学鲁非教授课题组题为"Population genomics unravels the Holocene history of bread wheat and its relatives"的研究论文。该研究以795个小麦品系为研究材料,对其进行全基因组测序,通过系统发育、群体结构、种群历史动态和环境关联等分析,全面揭示了小麦在全新世的群体历史和未来的群体状况,为小麦育种和生物多样性的维持提供了重要依据。
前言
面包小麦(Triticum aestivum ssp. aestivum)作为全球重要作物之一,养育了世界上约35%的人口,并提供了约20%人类膳食所需的胡萝卜素和蛋白质。而作为最早被驯化的作物之一的面包小麦,与近缘种如T. monococcum ssp. Monococcum(AA)和T. turgidum ssp. Dicoccum(AABB)等的分化和群体历史却尚不明晰。由于这些作物拥有极高的经济价值和文化价值,因此了解其在全新世的传播、分化历史尤为重要。作者借助高通量测序技术,对面包小麦进行属水平采样和测序(小麦属和山羊草属的795个品系),并通过群体遗传学、系统发育学和环境关联等一系列分析,来探究面包小麦在全新世时期的群体分化历史。
结果
1. 小麦属和山羊草属全基因组遗传变异图谱(VMap 1.1)的构建
由于面包小麦( Triticum aestivum ssp. Aestivum,2n = 6x = 42,AABBDD)是由小麦属( Triticum )和山羊属( Aegilops )物种发生多倍化而来,因此研究人员收集了来自世界各地的小麦属和山羊草属共25个亚群、795个品系进行研究(Fig1)。
本研究利用了795份小麦代表性材料的全基因组测序数据,其中包括本研究中新测序的50个进化关键节点的小麦样本,其余745份来自公开可用的数据库。这795份材料的平均测序深度为约6.5 ×,为小麦的遗传变异数据挖掘提供了高质量的数据来源。通过个性化的跨倍性遗传变异挖掘流程,我们构建了升级版的小麦属级的遗传变异图谱(VMap 1.1),该图谱包含7,800万单核苷酸多态性位点。VMap 1.1不仅来源于目前小麦研究领域最广泛的二代测序数据集,而且代表了小麦高水平的遗传多样性。这795份材料来自小麦属和山羊草属的25个种/亚种,具有广泛的地理分布(73个国家)、复杂的倍性水平(二倍体、四倍体和六倍体)、涉及与面包小麦A、B和D亚基因组相关的基因组类型(AA、BB/SS、AABB、AABBDD和DD)、以及不同的育种水平(野生种,早期驯化种,地方品种和栽培品种)。VMap1.1的广泛代表性为后续的小麦遗传学研究奠定了基础(图1)。这些遗传变异的假阳性率为0.011%,与前人研究相似,数据可靠高,可以进行后续研究。
a, Common name, spike morphology, ploidy level, genome type and breeding status of wheat accessions.
b, Relationship of wheat accessions in the AB lineage illustrated by the phylogeny tree with wild emmer as the outgroup.
c, Evolutionary relationship of bread wheat and its wild progenitors in the genera Triticum and Aegilops. The sample size of the individual taxa is indicated. The chronogram of the phylogeny was obtained by calculating the divergence of orthologous genes between species (Methods and Supplementary Fig. 9).
2. 面包小麦的时空起源
许多作物是从野生型驯化而来,而面包小麦在驯化过程中还伴随着多倍化:四倍体小麦(AABB)和二倍体节节麦(DD)的杂交(Fig1.b,c)。
虽然小麦群体的进化拓扑结构越来越清晰,但对面包小麦出现的时空动态认识依然有限。因此,研究人员从二粒小麦(驯化小麦祖先)入手,发现二粒小麦主要有西亚黎凡特北部和南部的两个亚群(Fig2.a)。并进一步对其进行全基因组水平和关键位点的驯化分析,发现北部的亚群与驯化种聚在一起(Fig1.b)、IBS距离更接近(Fig2.a)且驯化位点SNP聚类也聚在一起,说明驯化小麦起源于黎凡特北部的亚群,即土耳其东南部。
前人研究表明,栽培小麦在起源过程中与南部野生小麦有强烈的基因流。通过fd统计检验,作者发现驯化小麦种基因组的渐渗片段比例达到9%,说明驯化小麦基因组中有大量南部野生小麦基因流流入。
除了对小麦驯化的争论之外,面包小麦的起源地也尚不明确。研究人员发现自由脱粒四倍体小麦是面包小麦AB亚基因组的供体,说明面包小麦的六倍体化直到自由脱粒的四倍体小麦扩散到里海南部才发生。为了进一步探究面包小麦形成的时空背景,研究人员通过SMC++和等位基因频谱分别对其AB、D亚基因组进行分析。发现驯化二粒小麦与野生二粒小麦在公元前10041 ± 160年分化,自由脱粒四倍体小麦和驯化二粒小麦在公元前9269 ± 98 年分化;面包小麦与自由脱粒四倍体小麦在公元前8441± 140年分化(Fig2.b),且该结果与考古遗迹相一致。
此外,面包小麦中还存在不对称渐渗,渐渗在AB亚基因组(19.43%)中比在D亚基因组(0.49%)中更为普遍,由于不对称渐渗会改变分化时间,因此该现象很可能解释了从AB和D中推断出的面包小麦不同的物种形成时间。为了证实这一观点,研究人员通过不同的分化模型(Fig2.c)来探究小麦的群体历史动态。结合SFS,在特定模型下,公元前8919年、7228年前野生小麦和驯化小麦分别与面包小麦发生古基因流。在最适模型下,AB亚基因组在11700年前自由脱粒四倍体小麦与面包小麦有持续双向的基因流。这些结果表明,AB亚基因组持续近3300年的强烈基因流导致面包小麦物种的形成缓慢。
a, A geographic affiliation of IBS distances across bread wheat and its progenitors. Colour scale indicates the distance of the AB subgenomes (blue) and the D subgenome (red) between bread wheat and progenitors. The map was created using the R package rworldmap.
b, Timeline of evolutionary events related to bread wheat speciation. Top: timeline of population split between wheat populations inferred from SMC++. Bottom: wheat evolutionary timeline derived from archaeological evidence.
c, The best supported demographic model of speciation and introgression in wheat for AB subgenomes (top) and D subgenome (bottom). The width of each grey rectangle indicates the estimated effective population size (Ne). Arrows among the grey rectangles are the migration rates (m) among different populations, and only 2Nem > 1 is shown. The coloured rectangles in the timeline indicate the time boundary of introgression.
3. 面包小麦的跨欧亚大陆传播
为了探究面包小麦的扩散历史,研究人员利用EEMS对225个面包小麦地方品系进行分析(Fig3.a),以确定面包小麦扩张的空间阻碍。结果表明,面包小麦沿地中海北部沿岸向西快速迁移,而在向东迁移时,被帕米尔山脉障碍,从而将亚洲内陆的地方品系分成中亚和南亚种群,但是东亚和南亚的地方品系表现出复杂的种群结构。于是进一步利用qpGraph来探究地方品系间的扩散关系,最终确定了三条面包小麦从中亚和东亚的扩散路线(R4,R5,R9,Fig3.b)。
接着,作者结合SMC++和fastsimcoal2来研究局部适应品种和西亚群体的大致群体历史。发现在伊比利亚半岛、印度河流域、云南和中国东部的面包小麦群体有早期的基因流,且这些品种分别在公元前7000、6000和5400年分化(Fig3.c)。
a, Proposed dispersal routes of bread wheat in Eurasia. Map colours show the EEMS representing migration barriers (orange) and channels (cyan). Pies on the map show the ancestral proportion of the five lineages. Arrows are the estimated migration routes from the Fertile Crescent to Europe and Asia. Boxes mark subpopulation hybridization and new subspecies formation events, and the dashed areas represent the regions where the hybridization events took place. The map was created using the R package rEEMSplots.
b, Admixture graph model identifies the hybridization events of bread wheat in ten regions along the eastward route. Solid lines with arrowheads represent uniform ancestries and attached numbers show scaled drift parameter f2. Dashed lines represent mixed ancestries and attached values indicate estimated proportion of ancestry. The colour panel represents three dispersal routes.
c, Violin plots of the distibution of split times estimated from cross-coalescence analysis of different regions. The box edges represent the interquartile range, the horizontal lines represent median values and the whiskers extend to 1.5× the interquartile range in boxplots (n = 20 random pairs).
d, Violin plots of the density distribution of inheritance probability of four Triticum subspecies formed through hybridization during bread wheat dispersal (n = 4,806 reciprocal genes). The box edges represent the interquartile range, the horizontal lines represent median values and the whiskers extend to 1.5× the interquartile range in boxplots.
4.由面包小麦扩散产生的新小麦亚种
种间杂交在物种扩张过程中十分常见,面包小麦在扩散过程中也伴随这种现象:如T. aestivum ssp. Spelta,T. aestivum ssp. Macha,T. aestivum ssp. Petropavlovskyi和T. turgidum ssp. carthlicum这4个六倍体在聚类时只有T. turgidum ssp. Carthlicum聚在六倍体那一支(Fig1.c)。为了厘清这一差异的原因,研究人员利用phyloNet对9612个同源基因进行建树。结果发现,这些亚种均为四倍体小麦和面包小麦的杂种,且面包小麦的遗传贡献达到33-54%(Fig3.d)。再由SMC++计算这四个亚种的分化时间,这四个杂交种分别起源于公元前6400、7300、3300、6000年前(Fig3.a)。
5.面包小麦扩张伴随的环境适应性
为了探究面包小麦在扩散过程中环境适应性的变化(遗传多样性),研究人员对225个地方品系进行RDA分析。19个环境变量解释了13.44%的遗传变异,且温度相关变量的方差(r2 = 0.11)大于降水(r2 = 0.075)和海拔(r2 = 0.013)(Fig4.a),但最重要的环境变量为最温暖地区的降水(Fig4.b)。说明面包小麦存在复杂的局部适应机制。
进一步作者对西亚(WA)、欧洲(EU)、亚洲内陆(IA)、东亚(EA)和南喜马拉雅(SH)五个群体的地方品系进行RDA分析。与其他地区相比,WA的环境变量方差最小。此外,温度、降水和海拔的方差在5个地区存在差异(Fig4.c)。进一步,作者结合XP-CLR和Bayenv的交集来鉴定与环境适应性相关的选择区域。共检测出267279个变异位点,平均每个比较对包含3337个基因,其中123个克隆基因参与了关键农艺性状如抗病、非生物胁迫响应等的调节。
a, Landraces mapped on the first two canonical axes of RDA. Arrows represent 20 environmental factors (11 temperature factors, 8 precipitation factors and altitude) that are correlated with genotype of landraces. Coloured points represent accessions from different regions.
b, Ranked importance of environmental factors based on individual RDA analyses.
c, Proportion of total SNP variance explained in RDA by environmental variable categories in each region (EU, n = 32 accessions; WA, n = 30 accessions; IA, n = 22 accessions; EA, n = 57 accessions; SH, n = 57 accessions). Error bars show s.e.m. (100 replicates).
d, Sequence of the Ppd-D1 gene on the chromosome 2D of the reference genome (Chinese Spring). Three causative loss-of-function alleles (labelled with numbered arrows) and one non-causative frameshift mutation (labelled with plain arrow) are marked with an orange line and rectangle in the genome sequence. The light-yellow rectangle represents the gene body. Blue rectangles represent exons.
e, Selective sweeps on chromosome 2D to identify adaptive footprints on Ppd-D1. Top: IA vs SH. Bottom: SH1 (altitude >3,000 m) vs SH2 (altitude <1,000 m). The horizontal dashed lines indicate the top 5% genome-wide cut-off level. Vertical red lines mark the position and top quantile of the Ppd-D1 gene. The grey circles indicate centromere of chromosome 2D.
f, Haplotypes of Ppd-D1 gene in strangulata and bread wheat landraces. The numbers represent three loss-of-function genetic variants corresponding to d. The coloured bars on the left represent different species/populations.
g, Geographic distribution of the stop-gain mutation (number 2) of Ppd-D1 gene.
h, Correlation between frequency and altitude of stop-gain mutation (number 2) of Ppd-D1 gene (Pearson’s r2 = 0.778, one-sided F-test, P = 5.48 × 10−20). The grey ribbon is the s.e.m. of allele frequency.
i, Geographic distribution of ~2-kb deletion (number 1) of Ppd-D1 gene.
j, Geographic distribution of 5-bp deletion (number 3) of Ppd-D1 gene.
Orange indicates the proportion of three loss-of-function haplotypes in g, i and j. Geographic maps in g, i and j were created using the R package rworldmap.
6.面包小麦的早花适应
为了进一步探究面包小麦的局部适应的遗传机制,研究人员将重点放在开花时间相关基因上,因为它被认为是决定植物适应性的主要性状。而调控小麦早花性状的Ppd-D1恰好是选出的适应性基因之一。目前,在小麦中共鉴定出3个Ppd-D1功能缺失的等位基因(Fig4.d),包括上游2kb的缺失、CCT结构域上游基因外显子5 bp的缺失和终止子变异。在IA和SH的选择比较中,该区域存在明显的选择信号(Fig4.e),而他们共有的缺失变异在SH中并不存在(Fig4.f),在SH中为终止变异(Fig4.f, g)。于是作者推测这个终止子变异可能帮助面包小麦适应高海拔和低温地区的短生长季节。
作者将SH的地方品系划分为高海拔和低海拔,并进行XP-CLR分析来验证这一假说。结果表明,高海拔与低海拔比较的XP-CLR的值达到了99.75%,大于IA和SH比较的97.61%,说明 Ppd-D1是促进面包小麦高海拔适应的基因之一(Fig4.e)。接着,通过关联分析,作者发现该突变的等位基因频率与SH地方品系的平均海拔高度之间有很强的相关性((Pearson’s r2 = 0.778,Fig4.h)。此外,Ppd-D1的三个等位变异在地理分布上相互补充(Fig4.g, i, j),说明一个高度多样化Ppd-D1的适应性变异通过改变面包小麦的开花时间来促进其适应。
7.面包小麦及其近缘种的种群大小波动*
最后,研究人员利用SMC++重建了面包小麦及其近缘种的群体历史动态。发现山羊草亚种的有效种群大小(A. tauschii ssp. tauschii, DD;A. speltoides, BB/SS)在过去10万年内持续收缩,而所有小麦属的物种在更新世都经历了明显的扩张。此外,面包小麦的近缘种在扩张后都经历了收缩,这种收缩和扩张按照二倍体、四倍体、六倍体的规律先后进行。而该规律又恰好与考古结果相映证:人类在新石器时代开始驯化单麦,直到被硬粒小麦取代,之后硬粒小麦又在青桐时代被面包小麦所取代(Fig5.a)。
剧烈的气候变化会对面包小麦的生物多样性造成巨大影响。因此研究人员采用生物地理模型来预测面包小麦对未来气候的响应。作者首先利用20个环境变量对13个群体先使用GF鉴定出环境关联的SNP位点,然后基于关联位点去计算每个未来时期的genetic offset等适应性指标。结果表明,印度河流域和亚洲内陆地区的genetic offset最高,说明这两个地区的小麦产量最容易受到气候变化的影响。最后,物种分布模型的结果表明,面包小麦的栖息地总体上是收缩的,并在地理范围上向北移动(Fig5.d)。
a, Holocene population dynamics of wheat. Top: Ne for seven populations. Bottom: relative Ne proportion of each population.
b, GO of bread wheat landrace based on 2040–2060 RCP8.5 and 2080–2100 RCP8.5 projections.
c, GO of bread wheat landrace in six geographical regions, corresponding to b (bread wheat, n = 225 accession; EU, n = 32 accessions; WA, n = 30 accessions; IA, n = 22 accessions; Indus Valley, n = 15 accessions; Tibetan Plateau, n = 42 accessions; EA, n = 57 accessions). The box edges represent the interquartile range, the horizontal lines represent median values and the whiskers extend to 1.5× the interquartile range in boxplots.
d, SDMs project the geographical range of wild emmer and strangulata populations in the present and future (2040–2060 and 2080–2100). Red dots indicate the location of the samples in VMap 1.1 and the USDA website (https://npgsweb.ars-grin.gov/gringlobal/search). The green shaded areas are regions predicted to be suitable for planting.
讨论
该研究在对面包小麦全面采样的基础上,通过对系统发育、遗传分化和环境关联等方法的巧妙运用,揭示了面包小麦及其近缘种在更新世时期的群体动态历史,基本厘清了面包小麦的演化脉络,并浅析了面包小麦在未来气候变化条件下的环境适应性。该研究为小麦的食品安全保护、重要性状形成和演化规律的研究奠定了重要基础,同时也为面包小麦的遗传育种提供新的思路。
https://mp.weixin.qq.com/s/Civ7HUk1z94Bi36U6te2Nw
https://mp.weixin.qq.com/s/LRgBQS2z2jDBddZ_jnQDzA
https://mp.weixin.qq.com/s/XNHzNklO2q9dGLLL5ayyAA
https://mp.weixin.qq.com/s/AjEN7GmdxaA5jH4EM6lDkg