2023年7月29日浙江大学樊龙江教授在Crop Design发表综述文章Recent progresses in plant single-cell transcriptomics,系统阐述单细胞转录组研究进展!
https://doi.org/10.1016/j.cropd.2023.100041
摘要
高通量单细胞测序技术具有揭示植物细胞新景观的巨大潜力。单细胞/核RNA (scRNA/snRNA)、单细胞/核可转座酶可及染色质测序 (scATAC/snATAC) 和空间转录组测序已应用于多种植物组织中。因此,最近两年来,关于植物单细胞转录组学的研究发表数量显著增加。在本综述中,我们将总结这些单细胞测序方法的优势和劣势,并提供最近两年在细胞生物学、生物信息学工具和数据库方面的发展概览。
引言
单细胞RNA测序(scRNA-seq)方法的快速发展使研究人员能够以高分辨率和高通量的方式研究植物器官(图1)。通过这些技术,研究人员对植物的细胞异质性、发育轨迹以及基因调控网络(GRN)有了更深入的了解。近期,推出并实施了植物细胞图谱计划和农作物增产计划,分别致力于推动植物学研究和提高作物产量。单细胞测序方法对这些项目至关重要。
图1:植物单细胞高通量测序技术的示意图。左侧:研究人员选择感兴趣的组织。中间:根据所采用的测序技术,样本被处理成独立的原生质体(顶部)、独立的细胞核(中部)或组织切片(底部)。右侧:使用R包Seurat生成的水稻叶片数据的UMAP图(顶部)。该图(底部)模拟了水稻叶片样本中各种细胞类型的分布情况。在这两个图中,每个点代表一个细胞,不同的细胞类型由不同的颜色指示。缩写:UMAP,uniform manifold approximation and projection;ATAC,assay for transposase accessible chromatin。
然而,植物原生质体的基于原生质体的方法存在一些缺点。首先,处理大型植物原生质体(直径>100μm)时,需要注意可能导致细胞破裂和设备堵塞的捕获偏差风险。其次,酶消化过程很可能在相关基因的表达中引起明显的偏差。为解决这个问题,通过优化细胞提取过程,一些技术如FX-Cell已经被设计出来。另一方面,一些研究选择了单细胞核RNA测序(snRNA-seq)而不是单细胞RNA测序(scRNA-seq)(图1)。核的分离可以得到更多种类的细胞,并且在各种组织和物种(包括冷冻样品)中都适用,从而显著消除潜在的捕获偏差。此外,用于核分离的缓冲液的组成和浓度已经进行了新的优化。然而,需要注意的是,当使用相同规模的材料时,通常用snRNA-seq捕获的转录本较少。最近的一项研究表明,scRNA-seq提供了深度,而snRNA-seq提供了广度的转录组学信息,即两种技术的组合分析将为植物中的细胞鉴定提供互补的结果。
除了上述技术外,单细胞/核转座酶可及染色质测序(scATAC-seq/snATAC-seq)探索了单个细胞的开放染色质区域,并评估了单个细胞的转录调控(图1)。近年来,空间转录组技术成为获取植物组织原位基因表达数据的新方法。此外,值得注意的是,已经开发了单细胞增强分辨率组学测序(如Stereo-seq),使研究人员能够以前所未有的单细胞分辨率获取植物细胞的空间和转录组信息。
已有几篇综述文章对植物单细胞转录组学的发展进行了全面回顾。在过去几年里,植物单细胞转录组学是一个迅速发展的研究领域,并且在最近两年的发表量大幅增加(详见下一节)。在本综述中,我们将重点关注植物单细胞转录组研究的新进展,特别是高通量单细胞测序技术的应用、生物学发现以及生物信息学数据库和工具。
植物单细胞转录组学研究的发表数量迅速增加 从Web of Science和其他数据库(从2015年1月至2023年4月)中检索到了102篇关于植物单细胞转录组学的研究文章。自2019年以来,植物研究的发表数量有所增加,尤其是在最近两年出现了显著增长(图2)。这些研究主要针对模式植物拟南芥,在早期研究中尤为突出(2021年之前)。在这102篇文章中,一半以上是关于拟南芥的(50/102,50.0%),其次是玉米(9.8%)和水稻(6.9%)。根据我们的统计数据,10× Genomics是最受欢迎的测序平台,具有显著的市场份额(图2)。其中,单细胞RNA测序(ScRNA-seq)被广泛应用(77/102,75%),其次是单细胞核RNA测序(snRNA-seq)(21/102,21%)、单细胞可及染色质测序(scATAC-seq/snATAC-seq)(9/102,9%)和空间转录组技术(4/102,4%)。此外,捕获的细胞或核的数量是分析的重要参数[34]。近期研究中,高通量测序技术显著提高了单个研究中捕获的细胞或核的数量,范围从几百个[35,36,37]到数万个[6,38,39],甚至达到了237,431个细胞[40]。
图2. 关于植物单细胞转录组的102篇研究文章摘要。
3.1 通过构建单细胞转录组图谱来探索生物学问题
具有单细胞分辨率的全面器官级图谱有助于研究植物特定细胞类型和其他许多生物学问题[41]。到目前为止,许多先前的研究已经构建了拟南芥各种组织的基因表达图谱,如侧根[37,41]、营养生长点[42]和叶片导管系统[43]。研究人员还应用snRNA-seq构建了拟南芥种子的转录图谱,并在这一努力中发现了许多与胚乳相关的生物现象[44]。此外,学者们还整合了scATAC-seq和scRNA-seq数据,在拟南芥根中改进了细胞类型注释[45]。值得一提的是,Stereo-seq整合了单细胞位置信息和转录组信息,展示了拟南芥叶片真实的单细胞空间转录组特征[27]。研究人员还在其他植物上应用了scRNA-seq,并构建了细胞表达图谱(图2)。
3.2 研究植物的细胞发育轨迹以发现生物学问题
近年来,结合植物细胞轨迹分析的单细胞测序研究逐渐增多。通过对植物组织的单细胞转录组数据进行伪时分析,可以预测选定细胞的分化轨迹。单细胞转录组能够帮助我们了解拟南芥叶片发育的变化。例如,Camila B等人将单细胞转录组学与遗传学相结合,建立了拟南芥叶片细胞分化模型,这对进一步研究拟南芥的发育具有重要意义[46]。研究人员还进行了伪时间分析,研究拟南芥的侧根和韧皮部。例如,对不同发育阶段的侧根样品进行了scRNA-seq,并通过结合连续发育阶段的样品,预测了静止中心细胞的形成[37,47,48]。稻米也有许多应用。一些研究对水稻花序细胞进行了scRNA-seq,并建立了花序的发育轨迹。通过原位杂交和其他实验的验证,他们证明了某些特定转录因子的功能[49]。
3.3 结合转录因子的单细胞测序揭示更多生物学问题
单细胞转录组测序在解释植物激素功能方面也起到了作用。例如,通过scRNA-seq,研究人员发现乙烯和活性氧可作为伤口信号促进拟南芥根部的新根再生[50]。对于植物的scRNA-seq数据,在构建基因表达网络后,可以识别在植物发育和分化中起关键作用的转录因子。例如,Ortiz-Ramirez等人利用玉米根组织的scRNA-seq数据,鉴定了与皮质组织复杂性相关的转录因子SHR。他们揭示了SHR蛋白在玉米皮质细胞中具有高迁移性,并与调节子叶皮层细胞向外扩张相关[51]。类似地,通过scRNA-seq数据,也鉴定出了拟南芥、花生、番茄和玉米叶片中大量的关键转录因子[52,53,54]。例如,Omary等人揭示了过渡状态与LATERAL ORGAN BOUNDARIES DOMAIN (LBD)的表达相关,该转录因子还调控了番茄地上和地下根的生长[55]。
3.4 探索代谢物生物合成的基因途径
近年来,单细胞转录组测序在研究涉及代谢物生物合成的基因途径方面发挥了作用。例如,在野生烟草(Nicotiana attenuata)的花冠中,通过分析scRNA-seq数据中共表达的基因并沉默候选基因,发现了与苄乙酮(BA)生物合成相关的细胞群集[56]。单细胞转录组测序数据还更新了萜类吲哚生物碱(MIA)的生物合成模型。研究人员探索了长春花(Catharanthus roseus)叶片中MIA代谢的空间组织,并首次定位了20个MIA基因的转录本[7]。此外,通过研究茶叶的单细胞转录组学,首次在植物中鉴定了一个意外的儿茶酸酯葡萄糖转移酶,并揭示了这一代谢途径作为儿茶酸酯的新途径[57]。
3.5 高分辨率研究植物细胞对生物和非生物胁迫的响应
通过单细胞木莓(Fragaria vesca)叶片在Botrytis cinerea早期感染过程中建立的细胞图谱,研究人员发现与疾病抵抗相关的基因在水气孔、表皮和肉质细胞中呈现多样的表达模式[58]。此外,一些研究表明,诸如热胁迫和盐胁迫等非生物胁迫往往以特定细胞类型为单位影响基因表达,并可能影响次基因组优势[8]。对于特定细胞类型来说,不同的非生物胁迫通常引发一系列相似基因的转录调控[40]。此外,scATAC-seq也用于揭示染色质对环境刺激的响应。例如,已描述了水稻根尖细胞对热胁迫响应中染色质可及性的变化[2]。
3.6 研究跨物种细胞类型的保守性和多样性
此外,单细胞转录组测序数据可用于研究跨物种细胞类型的保守性和分化情况。在禾本科水稻和双子叶植物拟南芥的根部中,大多数细胞类型特异转录本存在显著差异,说明水稻根和拟南芥根之间的进化保守性较低[59,60]。此外,通过比较玉米和水稻的scRNA-seq数据,发现多个细胞类型(如根毛、内皮和韧皮部)中存在更为保守的基因表达模式,揭示了进化上保守的细胞类型和基因[4]。此外,对四个不同乔木植物进行研究,揭示了开花植物中高度保守的射线状和变异的纺锤形细胞系,为茎部分化木质部的发育和进化提供了新的见解[9]。
植物单细胞RNA分析的生物信息学工具
植物单细胞转录组学的数据处理流程可以一般分为三个阶段(表1):从原始测序数据生成表达矩阵,根据表达矩阵对细胞进行细胞类型分配,以及根据矩阵和其他数据资源进行深入分析[24,32,61]。第一阶段,如果选择10× Genomics平台进行scRNA-seq,Cell Ranger [62]是一个很好的选项来生成表达矩阵。此外,通用软件包,如STAR [63]、UMI-tools [64]和Salmon [65],也是理想的替代品。这些工具进行的初步过滤可以筛选出转录计数与背景或损坏细胞相似的细胞。研究人员需要考虑是否捕获到足够数量的可行细胞,这将影响是否获得完整范围的细胞类型[66]。第二阶段,将进行过滤、标准化、归一化、筛选高变异基因、主成分分析(PCA)、聚类和细胞类型注释[66]。在这个阶段常用的分析软件包有SCANPY [67]和Seurat [68]。此外,scPlant [69]是一个专门为植物单细胞数据集设计的最新工具包,提供了端到端的解决方案并可供使用。SCANPY基于Python,可以更好地与仅支持Python的软件包和深度学习模型配合使用。相比之下,scPlant和Seurat基于R,这使它们可以更方便地使用仅支持R的软件包。首先,根据表达这些基因的细胞数和细胞中表达的基因数,将基于基因和细胞分别进行过滤[16,38]。此外,如果在某些细胞中,线粒体相关基因、细胞周期相关基因或酶解相关基因的表达水平过高,则可以考虑过滤掉这些细胞。处理植物单细胞数据时,还需要考虑叶绿体相关基因。此外,在原生质体分离过程中会受到酶解影响的基因也需要特别关注[32]。基因数或细胞数的阈值可以是一个确定的值,也可以使用鲁棒性的中位数绝对偏差(MAD)。其次,通过Linnorm [70]、SCnorm [71]或sctransform [68]进行标准化和归一化,可以更好地检查小值,而不会被大值掩盖。基于多样的单细胞数据集和轮廓宽度度量的评估显示了这三种方法的类似性能[66]。第三,根据方差等指标筛选高变异基因后,进行主成分分析(PCA)会变得更容易。在进行PCA分析时,通常参数"dim"的值介于10和30之间。第四,可以通过PAGA [72]等聚类方法将具有相似特征的细胞分组在一起。每组细胞可以通过t分布随机邻域嵌入(t-SNE; [73])或均匀流形逼近和投影(UMAP; [74])在二维坐标系中显示出来。需要注意的是,改变与分辨率相关的参数可能会对聚类结果产生影响。一般来说,分辨率值越大,生成的细胞群体就越多。最后,通过t检验[75]或Wilcoxon秩和检验[76]等方法确定每个聚类的差异表达基因(DEGs)。DEGs与标记基因的匹配是细胞群体注释的基础。值得注意的是,最近设计了一种植物特异的机器学习流程SPmarker [77],以帮助研究人员从植物scRNA-seq数据中挖掘新的标记基因。第三阶段,根据研究的目的,可以进行一些可选择的分析,例如轨迹推断、基因调控网络(GRN)推断等[78,79]。这个阶段的分析是高度个性化的,需要根据研究的重点进行灵活调整和补充。SCANPY、scPlant和Seurat也可以在这个阶段使用。有很多工具可用于轨迹推断,包括Monocle [80]、Slingshot [81]等。可以考虑使用SCENIC [82]等工具来推断GRN。值得注意的是,先前已经进行了与轨迹推断相关的工具的基准测试,结果表明这些工具给出的结果应该谨慎对待[83]。重要的是要提到没有一个工具可以独立完美地解决所有问题。工具包中的算法通常是针对相应的数据分布和数据结构设计的。通常需要额外的实验证实所使用的工具是否与数据匹配。同时,广泛使用的工具包的性能基准测试可以是有益的[32,66,83]。
植物单细胞转录组数据库
近年来,已建立了几个数据库,以便为植物单细胞转录分析提供便捷的信息获取途径(表2)。PlantscRNAdb [84]、PsctH [85]和PCMDB [86]是专门用于植物单细胞RNA分析的三个综合数据库,它们收集了不同种类植物各种组织中的标记基因,并提供原始论文、相关表达矩阵以及通过t-SNE或UMAP可视化显示基因表达。PlantscRNAdb将这些标记基因分为两个等级(标记#1和标记#2),根据它们在不同细胞类型中的表达模式进行分类。标记#1指的是相应标记基因在单个细胞类型中表达的超过80%的scRNA读数。此外,该数据库还提供在线BLAST工具,可用于在其物种库中搜索同源细胞类型标记基因。至于PsctH,除了标记基因,它还提供了一个实用的流程,指导孤立原生质体的准备。此外,它还建立了一个用于植物scRNA-seq分析的通用流程,使用R脚本来方便数据挖掘。至于PCMDB,它支持SingleR [87]和SCSA [88],这两者可以根据标记基因信息用于细胞类型注释。还可以进行基于同源性的搜索,有助于预测潜在的标记基因。值得一提的是,PlantPhoneDB [89]也是一个综合数据库,其中包含植物的配体-受体配对。通过其附带的R软件包,研究人员可以推断植物单细胞数据中的细胞间通讯。此外,一些集成数据库也包含植物scRNA-seq数据,例如BAR [90]和SCEA [91]。此外,还有一些文章 [92,93,94,95,96] 提供了数据库或网络服务器,以简化关系数据的访问和利用,例如PscB。
展望
在过去的几年中,单细胞分辨率的技术为植物研究带来了新的机会。许多生物信息学工具已被用于处理植物单细胞数据,并且最近两年已开发了几个数据库,可帮助研究人员解释数据并获得有价值的见解。值得注意的是,许多新的细胞分辨率技术已经问世,但尚未在植物领域中使用。这些新技术对于植物单细胞转录组研究可能具有潜在的益处。例如,最近建立了一个制作转录因子单细胞图谱的方案 [3]。同时,多组学技术和分析方法目前受到广泛关注。许多生物信息学工具,如GLUE [97]、scJoint [98]甚至scGPT [99],已被开发用于不同来源和动物的数据整合。它们在植物数据中的有效性尚待确定。植物领域的一些研究文章也在这方面做出了努力,扩展了对细胞异质性 [16,60] 和植物对胁迫的响应的理解 [2,93]。对于非模式植物的单细胞转录组研究仍然存在许多挑战。首先,高质量参考基因组的可用性对于单细胞转录组研究非常关键。低质量的参考基因组可能导致对齐失败,从而导致某些基因的表达信号丢失。其次,细胞类型注释仍然是一项重要任务或挑战。细胞类型注释的准确性在很大程度上取决于标记基因的丰度和准确性。目前,在许多植物物种中,标记基因还不足以进行注释。可以使用生物信息学方法,如跨物种搜索同源基因来定位标记基因。近年来,已开发并应用了一些强大的深度学习模型,如Transformer [100],并在各个领域得到了应用。进一步参考这些现有架构,构建专门用于准确定位标记基因的模型可能是一项有利的研究方向。尽管实验方法(如原位杂交)可能更耗时,但通常是可靠且值得推荐的。空间转录组技术最近取得了重要进展,科学家们可以在保留植物空间上下文的情况下检查特定区域的基因表达模式 [25,26]。此外,立体-seq使研究人员在保持空间细节的同时实现单细胞分辨率 [27]。结构信息对于确定罕见细胞类型的位置和识别发育轨迹 [93] 可能起到重要作用。尽管取得了进展,但是获得可靠的植物单细胞水平原位转录组图谱仍然存在一些挑战。首先,如何准确地描绘每个细胞的轮廓是一个需要解决的问题。一些有效的模型,如Mask R-CNN [101]、Cellpose [102]和SAM [103],已被开发出来以实现准确的细胞分割。然而,这些模型仍然需要进一步改进。其次,这些测序方法检测到的转录本数量有限,转录本不足可能导致细胞鉴定和后续分析的困难 [27,104]。优化提取转录本的过程,并开发填补由于mRNA丢失而造成的空白区的算法,是可能的解决方案。第三,收集转录本时,由于技术限制,它们的位置可能会被改变。为了解决这个问题,未来需要进行实验技术的优化。在使用单细胞分辨率测序技术研究生物问题时,可以考虑一些建议。首先,需要明确这些技术的优点。例如,更高的分辨率使得通过共表达分析更有可能找出与已知通路中的不清楚基因相关的基因 [56]。其次,根据不同的研究对象(物种或器官)和内容,需选择不同的测序技术。如果容易获得原生质体,可以选择scRNA-seq;如果难以获得原生质体,则可能更适合snRNA-seq;如果需要染色质可及性信息,则应考虑scATAC-seq或snATAC-seq;如果在原位信息非常重要,则空间转录组测序可能是有帮助的。第三,当难以分析数据时,建议尝试不同的工具或不同的参数。第四,应选择适当的实验方法来验证分析结果。总之,上述高通量测序技术使研究人员能够观察特定基因在单细胞水平上的作用,以及外部因素对植物生长和发育的影响,这可能有助于育种者鉴定更多改良作物性状的候选基因并设计更合适的育种策略,包括基于合成基因组的育种、基因组选择和设计加速育种。