期刊:Molecular Ecology Resources
影响因子:7.093
文章题目:Single-molecule long-read sequencing reveals extensive genomic and transcriptomic variation between maize and its wild relative teosinte (Zea mays ssp. parviglumis)
技术手段:二代转录组测序、全长转录组测序、基因组测序
派森诺生物与华中农业大学携手合作,于近期在Molecular Ecology Resources上发表了大刍草全长转录组的研究成果。
研究背景
玉米(Zea mays L.)是世界重要的粮食作物,目前,随着人口增加和耕地减少,通过利用野生种质资源进行作物遗传改良,进而提高作物产量势在必行。大刍草(teosinte,Zea mays ssp. parviglumis),又名墨西哥野玉米,是现代栽培玉米的野生近缘种,它具有抗病性、直立性等优良特性,且可以与玉米自由杂交,是改良现代栽培玉米的重要种质资源。
但是,由于大刍草具有高度杂合、重复性高的基因组,给组装带来了困难,因此至今无可利用的高质量参考基因组。同时,由于缺乏合适的注释工具,大刍草的全长转录组也无法得到很好的组装,这阻碍了在玉米的育种中鉴定和利用有利的衍生等位基因。
转座子(transposable element,TE)是重要的基因组元素,或与基因组结构变异有关,在植物的适应性进化中起着关键作用。有研究表明,TE在植物中发挥着重要作用,涉及基因失活,基因表达的调节,对外界应激变化的反应等。近85%的玉米基因组由TE组成,但其在玉米驯化中的作用仍不明确。
基于此,本研究对大刍草近交系TIL11进行全长转录组测序,通过自行设计的注释工具:DenovoAS_Finder,用以在无参情况下将转录本进行分类,以获得TIL11的准确转录组信息。随后利用Nanopore测序技术构建TIL11的基因组草图以鉴定TE,旨在加深对玉米驯化与改良的理解。
技术路线图
研究结果
1、 TIL11全长转录组的测序和注释结果
为构建大刍草全长转录组,从大刍草自交系TIL11不同发育阶段的五个组织中提取高质量的RNA,并通过Pacbio Sequel测序产生1,556,196条reads。经过SMRT分析获得829,908条一致的全长转录异构体(isoform)。利用illumina的二代测序数据对其进行矫正,最终合并得到70,024条非冗余转录异构体(表1)。
表1 TIL11转录组组装情况统计
接下来设计了一个基于机器学习的注释工具:DenovoAS_Finder,在没有参考基因组的前提下对全长转录组进行注释。该工具利用XGBoost分类方法,利用玉米B73的公开数据进行测试表明其注释准确率高达91%(图1)。该工具将TIL11的70,044条转录异构体注释为23,527个预测基因(图2 a),组装出的TIL11参考转录组与其近缘栽培玉米相当:基因在端粒区域较多,着丝粒周围区域较少,转录本的平均长度为1906 bp,比B73短;此外还鉴定了17,339个SSRs,9,904个lncRNAs;跨组织的转录组测序结果显示,大多数基因和转录本在叶片中表达,而在雄穗中表达得最少(图2 b,c)。
图1 用集成机器学习的软件:DenovoAS_Finder来注释TIL11全长转录组
图2 TIL11转录本的特征和组织特异性表达
2、 基于全长转录组的转录异构体和基因家族分析
提取基于全长转录组的TIL11和B73基因家族信息发现,相比大刍草,玉米有142个基因家族显著扩张,30个基因家族显著收缩(图3 a)。进一步进行GO富集分析,结果表明,扩张的基因家族在“RNA修饰途径”条目显著富集(图3 b),暗示它们在玉米驯化转录修饰中起重要作用。
以往针对玉米与其近缘种的转录组研究主要集中在基因表达水平,例如,大刍草和玉米之间的基因表达不一致,不同的表达模式与驯化和改良显著相关等。而本研究专注于转录异构体的数量,并发现了TIL11基因和B73基因之间的异构体数量变化较为常见。例如,比较基因家族中每个基因产生的转录异构体数量,发现快速扩张的基因家族中,平均转录本显著增加,反之快速收缩的基因家族的平均转录本显著减少(图3 c)。
进一步研究发现,转录本数量发生显著变化的基因在驯化和改良相关基因中显著富集。比较TIL11与B73的同源基因对的转录异构体数量,并将异构体数量增加最多的前5%的基因被命名为扩张组。已有研究鉴定,在玉米的驯化和改良过程中,分别有1429和1242个基因经历了显著选择。本次结果中,扩张组包含了驯化期经历选择的59个基因和改良期经历选择的74个基因,且富集程度达到了显著水平。这表明在大刍草和玉米之间,转录异构体数量增加最多的基因与选择有关(图3 f)。
以上结果均表明,玉米的驯化和改良不仅影响基因表达水平,而且影响转录异构体的形式。
图3 基因家族和转录本数量的变化
3、 基因组草图的组装和转座子分析
为构建大刍草的基因组草图,通过Nanopore测序得到了29.6 G数据,总计2,429,054条reads。组装出的TIL11基因组大小约1.29 G,由16,633个高质量contigs组成,N50为112 kb。预计TIL11完整基因组的大小2.08 G,小于B73基因组(表2)。
表2 TIL11基因组组装情况和预测统计
基因组共线性分析表明,TIL11基因和B73基因之间具有良好的保守性(图4 a)。与之相对TIL11和B73之间的长末端重复转座子(LTRs)存在显著差异。具体而言,在玉米B73中,I类逆转录转座子占期基因组变异的最大比例(62.8%),然而,TIL11中可归因于这类转座子的基因组变异比例显著低于B73,仅47.2%。进一步研究发现,扩张和收缩的基因组区域主要在这类转座子 (图4 b),详细的比较表明,基因组发生扩张的区域几乎都是LTRs(图4 c)。这说明LTRs的转座可能促进了两个物种之间的基因含量差异。
同时,观察到转座子Hopscotch对基因的表达水平起重要作用。在玉米驯化过程中,基因tb1对顶端优势的增加起着重要作用,而据报道,插入tb1调控区的转座子:Hopscotch可作为基因表达的增强子。本研究中,该转座子在B73的相同位置被鉴定,但在TIL11基因组中缺乏(图4 d),因此导致了TIL11中tb1表达量较低。
这些结果表明转座子可能是驯化和改良过程中基因组结构变异和系统发育变化的重要因素。
图4 B73和TIL11之间基因组区域的收缩和扩张
小 结
A.本研究对大刍草近交系TIL11的五个组织进行全长转录组测序,鉴定了70,044条非冗余转录异构体,并设计了一个基于机器学习的软件:DenovoAS_Finder,用于在没有参考基因组的情况下注释TIL11的转录组。
B.此外,通过Nanopore测序,构建了具有16,633个高质量contigs、 N50达112kb的TIL11基因组草图。
C.与大刍草相比,在玉米中扩张的基因家族显著富集于“RNA修饰途径”这一GO条目下,且TIL11的转录本数量多于玉米自交系B73。
D.基因在TIL11和B73之间表现出共线性,基因间区被转座子广泛改变。
E.本研究加深了对玉米驯化的理解,为野生种质在玉米育种中的利用提供了资源。
本研究的二代转录组、全长转录组建库测序由上海派森诺生物科技有限公司完成。
原文索引:
Li Z , Han L , Luo Z , et al. Single-molecule long-read sequencing reveals extensive genomic and transcriptomic variation between maize and its wild relative teosinte (Zea mays ssp. parviglumis). Molecular Ecology Resources, 2021.
期刊:Molecular Ecology Resources
影响因子:7.093
文章题目:Single-molecule long-read sequencing reveals extensive genomic and transcriptomic variation between maize and its wild relative teosinte (Zea mays ssp. parviglumis)
技术手段:二代转录组测序、全长转录组测序、基因组测序
派森诺生物与华中农业大学携手合作,于近期在Molecular Ecology Resources上发表了大刍草全长转录组的研究成果。
研究背景
玉米(Zea mays L.)是世界重要的粮食作物,目前,随着人口增加和耕地减少,通过利用野生种质资源进行作物遗传改良,进而提高作物产量势在必行。大刍草(teosinte,Zea mays ssp. parviglumis),又名墨西哥野玉米,是现代栽培玉米的野生近缘种,它具有抗病性、直立性等优良特性,且可以与玉米自由杂交,是改良现代栽培玉米的重要种质资源。
但是,由于大刍草具有高度杂合、重复性高的基因组,给组装带来了困难,因此至今无可利用的高质量参考基因组。同时,由于缺乏合适的注释工具,大刍草的全长转录组也无法得到很好的组装,这阻碍了在玉米的育种中鉴定和利用有利的衍生等位基因。
转座子(transposable element,TE)是重要的基因组元素,或与基因组结构变异有关,在植物的适应性进化中起着关键作用。有研究表明,TE在植物中发挥着重要作用,涉及基因失活,基因表达的调节,对外界应激变化的反应等。近85%的玉米基因组由TE组成,但其在玉米驯化中的作用仍不明确。
基于此,本研究对大刍草近交系TIL11进行全长转录组测序,通过自行设计的注释工具:DenovoAS_Finder,用以在无参情况下将转录本进行分类,以获得TIL11的准确转录组信息。随后利用Nanopore测序技术构建TIL11的基因组草图以鉴定TE,旨在加深对玉米驯化与改良的理解。
技术路线图
研究结果
1、 TIL11全长转录组的测序和注释结果
为构建大刍草全长转录组,从大刍草自交系TIL11不同发育阶段的五个组织中提取高质量的RNA,并通过Pacbio Sequel测序产生1,556,196条reads。经过SMRT分析获得829,908条一致的全长转录异构体(isoform)。利用illumina的二代测序数据对其进行矫正,最终合并得到70,024条非冗余转录异构体(表1)。
表1 TIL11转录组组装情况统计
接下来设计了一个基于机器学习的注释工具:DenovoAS_Finder,在没有参考基因组的前提下对全长转录组进行注释。该工具利用XGBoost分类方法,利用玉米B73的公开数据进行测试表明其注释准确率高达91%(图1)。该工具将TIL11的70,044条转录异构体注释为23,527个预测基因(图2 a),组装出的TIL11参考转录组与其近缘栽培玉米相当:基因在端粒区域较多,着丝粒周围区域较少,转录本的平均长度为1906 bp,比B73短;此外还鉴定了17,339个SSRs,9,904个lncRNAs;跨组织的转录组测序结果显示,大多数基因和转录本在叶片中表达,而在雄穗中表达得最少(图2 b,c)。
图1 用集成机器学习的软件:DenovoAS_Finder来注释TIL11全长转录组
图2 TIL11转录本的特征和组织特异性表达
2、 基于全长转录组的转录异构体和基因家族分析
提取基于全长转录组的TIL11和B73基因家族信息发现,相比大刍草,玉米有142个基因家族显著扩张,30个基因家族显著收缩(图3 a)。进一步进行GO富集分析,结果表明,扩张的基因家族在“RNA修饰途径”条目显著富集(图3 b),暗示它们在玉米驯化转录修饰中起重要作用。
以往针对玉米与其近缘种的转录组研究主要集中在基因表达水平,例如,大刍草和玉米之间的基因表达不一致,不同的表达模式与驯化和改良显著相关等。而本研究专注于转录异构体的数量,并发现了TIL11基因和B73基因之间的异构体数量变化较为常见。例如,比较基因家族中每个基因产生的转录异构体数量,发现快速扩张的基因家族中,平均转录本显著增加,反之快速收缩的基因家族的平均转录本显著减少(图3 c)。
进一步研究发现,转录本数量发生显著变化的基因在驯化和改良相关基因中显著富集。比较TIL11与B73的同源基因对的转录异构体数量,并将异构体数量增加最多的前5%的基因被命名为扩张组。已有研究鉴定,在玉米的驯化和改良过程中,分别有1429和1242个基因经历了显著选择。本次结果中,扩张组包含了驯化期经历选择的59个基因和改良期经历选择的74个基因,且富集程度达到了显著水平。这表明在大刍草和玉米之间,转录异构体数量增加最多的基因与选择有关(图3 f)。
以上结果均表明,玉米的驯化和改良不仅影响基因表达水平,而且影响转录异构体的形式。
图3 基因家族和转录本数量的变化
3、 基因组草图的组装和转座子分析
为构建大刍草的基因组草图,通过Nanopore测序得到了29.6 G数据,总计2,429,054条reads。组装出的TIL11基因组大小约1.29 G,由16,633个高质量contigs组成,N50为112 kb。预计TIL11完整基因组的大小2.08 G,小于B73基因组(表2)。
表2 TIL11基因组组装情况和预测统计
基因组共线性分析表明,TIL11基因和B73基因之间具有良好的保守性(图4 a)。与之相对TIL11和B73之间的长末端重复转座子(LTRs)存在显著差异。具体而言,在玉米B73中,I类逆转录转座子占期基因组变异的最大比例(62.8%),然而,TIL11中可归因于这类转座子的基因组变异比例显著低于B73,仅47.2%。进一步研究发现,扩张和收缩的基因组区域主要在这类转座子 (图4 b),详细的比较表明,基因组发生扩张的区域几乎都是LTRs(图4 c)。这说明LTRs的转座可能促进了两个物种之间的基因含量差异。
同时,观察到转座子Hopscotch对基因的表达水平起重要作用。在玉米驯化过程中,基因tb1对顶端优势的增加起着重要作用,而据报道,插入tb1调控区的转座子:Hopscotch可作为基因表达的增强子。本研究中,该转座子在B73的相同位置被鉴定,但在TIL11基因组中缺乏(图4 d),因此导致了TIL11中tb1表达量较低。
这些结果表明转座子可能是驯化和改良过程中基因组结构变异和系统发育变化的重要因素。
图4 B73和TIL11之间基因组区域的收缩和扩张
小 结
A.本研究对大刍草近交系TIL11的五个组织进行全长转录组测序,鉴定了70,044条非冗余转录异构体,并设计了一个基于机器学习的软件:DenovoAS_Finder,用于在没有参考基因组的情况下注释TIL11的转录组。
B.此外,通过Nanopore测序,构建了具有16,633个高质量contigs、 N50达112kb的TIL11基因组草图。
C.与大刍草相比,在玉米中扩张的基因家族显著富集于“RNA修饰途径”这一GO条目下,且TIL11的转录本数量多于玉米自交系B73。
D.基因在TIL11和B73之间表现出共线性,基因间区被转座子广泛改变。
E.本研究加深了对玉米驯化的理解,为野生种质在玉米育种中的利用提供了资源。
本研究的二代转录组、全长转录组建库测序由上海派森诺生物科技有限公司完成。
原文索引:
Li Z , Han L , Luo Z , et al. Single-molecule long-read sequencing reveals extensive genomic and transcriptomic variation between maize and its wild relative teosinte (Zea mays ssp. parviglumis). Molecular Ecology Resources, 2021.