今天分享一篇做植物单细胞进化分析方面的文章,动物里面看过好几篇经典的给予单细胞数据的进化分析,植物里面还见的比较少,也就是偶尔在一些文章里面做下比如拟南芥和水稻的比较分析而已。
今天分享的是发表在nature上面的,“A pan-grass transcriptome reveals patterns of cellular divergence in crops”,这个是纽约大学完成的。他们利用单细胞测序比较了玉米、高粱和小米的单个细胞,揭示了这些重要谷类作物之间的进化差异。该研究结果为植物细胞型进化提供了新的见解,并为探索重要作物物种的遗传模块与性状之间的联系提供了新的方法。
========研究背景========
玉米和高粱是人和动物草原料的主要来源。这2个植物是近亲,在几百万年前进化成两个不同的物种。玉米是一种主要作物,但是高粱是一种重要的旱地作物和生物燃料候选作物。尽管玉米和高粱有着共同的祖先,但是在抗旱性以及耐寒性等性状上都有着明显的差异。例如,高粱比玉米更耐旱,并且可以从根部释放独特的粘稠物质,从而影响与周围土壤的相互作用。这些差异可能是由于玉米发生了全基因组复制事件(WGD)。
=========研究结果=========
1. 单细胞测序提供深度,核测序提供广度
在植物中进行单细胞测序,通过要先制备原生质体,所以要先对细胞壁进行酶溶解。但是对于有些植物组织,比如高粱,很难做到细胞壁的消化。所以为了比较单细胞测序和单细胞核测序对于双子叶植物和单子叶植物的影响,作者首先比较了拟南芥(一个双子叶植物:15967个单细胞的数据和17373个核转录组的数据)和玉米(一个单子叶植物:4235个单细胞的数据和2668个核转录组的数据)的单细胞图谱数据。
和单细胞核转录组相比,单细胞测序的UMI,检测的平均基因数目都比较高(附图1a,1b)。和普通RNA-seq的相关性分析表面不管是单细胞测序还是核转录组测序,都有比较强的相关性(附图1c),说明两种方法都能反应完整组织的转录表达。
不管是拟南芥还是玉米,单细胞测序和单细胞核测序都能检测出主要的细胞类型(图1a,1b,1c)。但是,在这2个物种中,相比于单细胞测序,核测序的结果获得的细胞类型,尤其是亚细胞类型相对较少,也往往无法区分一些密切相关的亚簇(附图3)。比如在单细胞测序中,玉米中柱细胞中含有一个亚簇,被鉴定为木质部,而在核测序分析中没有这个明显的亚簇(附图3)。作者通过抽样评估发现,如果要想获得核单细胞测序同等数目的cluster,核转录组测序可能需要2倍于单细胞的数据(附图4)。
合并这两种方法的分析结果,与单独的分析结果比较后,作者发现这两种方法均能发现一些潜在的生物学表达模式(图1a,1b,1c和附图4c,4d)。从核转录组中鉴定到的marker基因通常核单细胞结果鉴定的marker基因是一致的(图1c,1d)。并且细胞类型的注释结果也是相对稳定的。
核转录组测序最重要的优点就是能对细胞壁难以酶解组织的细胞进行捕获,从而更好的鉴定细胞的构成(图1e,附图3d)。例如,在玉米中,我们在单细胞核图谱中检测到一个独特的簇,而在单细胞图谱中不存在。我们使用先前发表的手工切片根组织的RNA-seq数据将cluster 19注释为小柱细胞。
在拟南芥中,我们通过聚类分析发现,3218个(大约占14%)的基因在单细胞数据和核数据之间差异表达。GO富集功分析发现在单细胞数据中高表达的基因大部分是应激相关基因(图1f)。在玉米、高粱和小米中进行的类似分析也发现单细胞核测序鉴定的应急反应的基因低于核转录组测序。然而,细胞和细胞核图谱之间的大多数差异似乎与compartment RNA的稳定性有关。例如,与单细胞测序结果相比,核测序结果中富集的mRNA在细胞质中具有更高的衰变率(但是不知道是怎么看出来的)。
所以,最终作者得出结论:结合单细胞测序核单细胞核测序能够更好的揭示一些细胞类型特意响应的原生质体反应的基因,同时也能对于转录的读数加深。
2. 谷物中保守的细胞标记基因
这个章节,作者开始以玉米-高粱-小米为研究对象,开始研究细胞level的进化。作者获得了高粱的图谱信息(3510个单细胞数据,7620个核图谱数据),小米的图谱信息(10613个单细胞数据核12192个核图谱数据)。作者使用三个物种之间单拷贝基因进行图谱合并分析(图2a)。
为了验证合并图谱的准确性,作者采取了下面几种方法:
- 利用MetaNeighbor来验证不同数据集不同细胞类型之间的相似性(附图6a);
- 采用scGen,来确认不同cluster之间的关系(附图6b,6c);
- 在玉米核高粱中进行原位杂交,来验证marker的准确性(图2b);
- 做玉米根的空间转录组(图2c);
通过上述4种方法,从而证实了玉米-高粱-小米合并图谱细胞的身份信息,从而利用玉米的图谱信息构建了一个这三个主要作物的泛图谱信息,这个图谱包含很多新的细胞特异的标记基因。
这个泛单细胞图谱的一个重要用途就是可以发现高度定位和保守的基因表达模块。作者使用MINI-EX来识别三个物种之间的特异细胞调控网络。结果鉴定到有15个特意细胞类型的TF相关regulon,并且在三个物种间保守(附图9a)。其中5个在拟南芥中的相关homolog的突变体,已经证实了调控相应的细胞类型。从而说明细胞类型的进化分析能够在一定程度发现特异的或者保守的细胞类型特异基因或者功能机制。
3. 玉米的全基因组复制时间对于细胞类型鉴定的影响
跨物种的细胞图谱为研究同源细胞类型是如何分化的提供了可能。作者首先关注基因复制事件的影响,主要看两大类全基因组复制(WGD)以及其他复制事件:串联(tandem),转座子介导(transposon-mediated),近端(separated <10个基因)和远端(间隔>10个基因)复制事件。
对于每对基因复制事件,作者基于高粱和小米之间的一致性来推断祖先的表达模式。把复制基因事件在一个细胞类型的表达分为5种类型:full dominance,partial dominance,co-expression,partial regulatory subfunctionalizaion, regulatory subfunctionalizaion(图2d)。然后作者用不同的score来衡量了从祖先中细胞类型的表达模式和新细胞类型的表达模式。
下面我们来理解一下这个score是如何定义的。方法部分是这样描述的,dominace定义是复制事件中的2个基因,其中一个比平均值大2倍。co-expression是2个基因都表达,和平均值相比小于2倍。Regulatory subfunctionalization和Regulatory Neo-functionalization的定义,我也看的不是太懂。
To calculate the Dominance vs. regulatory subfunctionalization score, for each ortholog triplet (S, M1, M2) we calculated the number of cells in which M1 or M2 was dominant or co-expressed together in the same cells where the sorghum and Setaria ortholog was expressed. We defined dominance if the average expression of one of the two duplicate is two time superior as the average expression of the other duplicate in the same cell type. Co-expression was defined when both duplicates were expressed in the same cell type and their respective expression was below a 2-fold range difference. Regulatory subfunctionalization was defined when both duplicates are dominant in different cell types. Regulatory Neo-functionalization was defined when one or both duplicates are expressed in cell type in which the sorghum and Setaria ortholog were not expressed.
所以score的定义如下:
Score = (number of cells in which M1 is dominant * number of cells in which M2 is dominant) - (number of cell of the dominant ortholog - number of cell of the non dominant ortholog)
最后score又做了一个normalization。
相比其他重复事件,WGD对于新表达结构的获得贡献更大,因为他们包含的共表达的基因种类相对较低(图2e,2f,附图9b-9d)。相反WGD中的同源基因更倾向于在dominance和subfunctionalized类别,而这两种类别在新的细胞类型中都展现出高度的新功能化。
根据基因组平衡模型,作者观察到共表达的WGD同源基因显示出剂量补偿的表达模式,而这种模式在其他重复类别中较弱或不存在(图3a)。此外,WGD中66%的所有这些neofunctionalization的大多数来自与dominance,并且M1基因组来自的多一些,并且dominance中的基因的细胞特异表达率高于co-expressed的基因(图3b)。这些说明WGD后的dominance模式影响了细胞类型的转录分化。
和以前的报道类似,同源基因对中的优势表达的成员表现出了更到的选择概率(图3c)。与共表达的同源基因对相比,WGD在内含子顺时调控位点的保守性显著降低(图3d)。这可能代表了内含子介导了表达模式的增强。这也可能和以前的结论类似,同源基因对中主导的一个可能在进化中从祖先获得了相似的功能,而非主导的那一个可能获得了新的功能或者成为假基因。
然而,假基因化似乎不太可能。当作者分析玉米花絮的单细胞数据时发现,在根中是非主导的一个,在花絮中变成了主导的基因。进化过程中的选择和优势的转换结果都表面同源基因中的非主导方可能作用于根外的某个生物功能。
dominance的基因的大多数功能与免疫和应激有关(图3e)。因此,有WGD驱动的细胞level获取的新功能可能有助于增强植物对环境胁迫的耐受性。
另外,尽管subfunctionalization占的比例较低。但是和其他复制事件相比,这类同源基因依旧含有较高的新功能获得率(图2e,2f)。并且在WGD所有新功能获得比例中占了34%。也就是说尽管subfunctionalization在同源基因对中占的比例相对较低,但是在细胞level新功能获取方法确概率较高。(我自己读着感觉都迷迷糊糊的)
另外,如果分细胞类型去看的话,有些细胞类型含有较高的功能扩张基因,比如维管束和根冠细胞(图3f)。cortex是新功能获取最不频繁的点。
总的来说,这个文章的数据揭示了基因复制是如何调控特定细胞类型的转路分化的。
4. 根粘液驱动了细胞的分化
为了更广泛地了解细胞分化,作者接下来检查了每个cluster的整个转录数据,以确定玉米和高粱中哪些细胞类型与小米相比变化最显著。作者结合了单细胞和单细胞核转录组数据,使用MetaNeighbor来比较不同物种的细胞类型。
结果表面,在玉米和高粱中,columella, LR, cortex 2, edndodermis, pericycle和stele细胞类型的转录组与小米相比差异最大(图4a)。这些共有的分化说明,进化过程中从小米开始就出现了分化,而不是从玉米和高粱的分化开始的。另外,有些细胞类型,比如cortex 1/4,stele在玉米和高粱之间显著差异,说明这些细胞类型可能是从玉米和高粱开始分化的。和前面基因复制驱动的新功能结果类似,columella也是分化程度最高的细胞类型(图4a,3f)。
为了进一步研究columella分化过程中涉及的生物学功能,作者尝试在共表达网络中鉴定分化的基因表达pattern。最终作者鉴定到了443个基因,这些基因在columella中的三个物种间差异表达。例如DMR6,在玉米的columella和epidermis中表达,但是在高粱的cortex和endoermis
中表达。
玉米cortex和columella之间的同源基因GO富集分析表明主要是与甘露糖、棉子糖和低聚糖合成的酶相关。这些糖和碳水化合物是粘液(也称为粘液)的关键成分,粘液可以从许多不同类型的根细胞中分泌,并具有多种作用,如形成与根相关的微生物组和润滑根土。然后作者查看了所有粘液合成相关的基因,发现他们也是在小米和高粱中的cortical中表达,但是在玉米的columella中表达(图4b-4d)。
总结来说,这些结果说明在玉米的columella中精力了快速的细胞分化,通过从祖先的cortex中招募一些粘液相关的基因。最简约的模型就是粘液模块的招募发生在玉米WGD之前,因为粘液合成的部分基因在cortex和columella中共表达。
以前动物上的研究提出基因表达模块从一个细胞类型到另一个细胞类型的融合是细胞分化的主要机制。我们测试,比如粘液基因表达模块,是如何在不同细胞类型之间转换的,主要通过玉米和高粱/小米之间的差异分析进行探索。尽管在转录因子的下游作者只发现了一个小的子集,但是在不同的细胞类型之间,作者发现了50个不同的交换regulon。这些交换模块很可能是介导玉米和其他物种细胞level性状差异的主要原因。
==========总结===========
总的来说,作者在5000万元的跨度中探索了细胞分化的两个主要趋势。在WGD复制事件之后,在同源基因对上呈现了主导基因在细胞类型上的分化作用。当然,占比较低的subfunctionalized的基因最有可能通过进化获取新的功能机制。其次,同源细胞类型可能通过交换基因表达模块来进行功能的分化。总结来说,这个paper中,作者论述了怎么通过多物种的泛单细胞图谱来探索植物细胞水平的进化问题,为重要作物的细胞性状和遗传调控基础开辟了新的思路和想法。