文献
2021
Molecular Plant
Single-nucleus RNA and ATAC sequencing reveals the impact of chromatin accessibility on gene expression in Arabidopsis roots at the single-cell level
研究背景
组成植物的各种细胞类型的独特生物学功能取决于它们对相同基因组信息的不同使用,具体而言是产生细胞类型特异性的转录谱。基因组信息在细胞之间和细胞类型之间的不同使用被认为部分依赖于不同的染色质可及性。人类ENCODE项目最近发现,在单细胞水平上建立染色质景观对揭示假定的转录因子结合位点具有很重要的作用。在动物科学中,单细胞RNA测序(scRNA-seq)和单细胞ATAC-seq技术已成功应用于各种细胞类型和组织,以更好地了解染色质可及性对基因表达的影响。
scRNA-seq方法已应用于拟南芥根原生质体,可以准确表征数千个细胞的转录谱及其在突变体或应激反应中的差异调控。这些研究揭示了单细胞技术在建立各种拟南芥根细胞和细胞类型的转录组图谱以及细胞发育过程中基因表达的动态调控方面的优势。然而,利用植物原生质体做单细胞测序存在一些问题,如某些细胞类型对细胞壁消化有抵抗力、提取原生质体过程本身对基因表达有显著影响、对较小的细胞/原生质体的测序存在偏见等。
作为原生质体的替代品,大量的植物细胞核被用来从植物细胞中获取转录组信息。例如,通过分离水稻根、拟南芥胚胎和种子胚乳上特定细胞类型标记的细胞核技术,从细胞核群体中建立转录组。然而,单细胞核测序也存在一些问题,如snRNA-seq会有检测到的基因偏少的风险。并且,使用完好无损技术的前提是鉴定细胞类型特异性标记基因来表达报告基因,并且需要产生转基因材料。
结论1 拟南芥根部单细胞核转录组数据集
Fig 1a
对拟南芥幼苗根系的细胞核进行纯化,并使用10X Genomics Chromium平台构建sNucRNA-seq文库,在5个独立的生物重复中,作者对10548个细胞核的转录组进行了测序。由于一些核转录本可能不会剪接,我们采用了“pre-mRNA”策略以包含内含子。每个细胞核中平均有1124个表达基因,一共鉴定出24 510个表达基因(占拟南芥蛋白编码基因的89.4%)。相比之下,Ryu等人选择的7437个拟南芥原生质体的转录组可在每个细胞中检测到4739个表达基因,共检测到25177个表达基因(91.8%)。与细胞核相比,每个原生质体中鉴定的表达基因数量更多,这是由于一个细胞中的ployA转录本比一个细胞核中的ployA转录本更多、更复杂。这一猜想还表明,核转录组代表了基因动态转录活性的快照,而细胞转录组可能代表了基因活性随时间的整合。
为了评估从sNucRNA-seq数据中获得的核转录组的生物学意义,作者对scRNA-seq和sNucRNA-seq和bulk RNA-seq进行了相关性分析。相关性结果表明拟南芥根的sNucRNA-seq与整个根的bulk 转录组的相关性与scRNA-seq的相关性一样高。
利用Seurat包集成独立数据集的能力,作者根据10 548个拟南芥根核与7437个拟南芥根原生质体的转录组学特征将它们共聚在一起(Fig 1a,蓝色为单核数据,橙色为单细胞数据)。
Fig 1b
Fig S2
利用UMAP降维,将拟南芥根不单核核单细胞数据分成21个20个不同的簇(Fig 1b是单核核单细胞合并后的数据,Fig S2中橙色为单细胞,蓝色为单核),cluster14是单核中特有的。
Fig 1c
Fig 1c展示了21个cluster的重叠分布,其中cluster4和11在单细胞核中更丰富,cluster14只存在单细胞核中,其他簇在单细胞中更丰富。
这些结果表明,scRNA-seq和sNucRNA-seq提供了相似的转录组信息,表明可以利用分离的植物细胞核在单细胞水平上建立有意义的转录组信息。此外,与scRNA-seq相比,sNucRNA-seq方法捕获了更具多样性和代表性的拟南芥根细胞类型群体。
结论2 拟南芥根部不同细胞簇的功能
Fig 2
作者整理了101个marker基因,然后根据它们的表达量对21个细胞cluster进行注释。这一策略使我们能够表征六大类细胞:毛体细胞(簇1-3)、成膜细胞(簇4-7)、分生细胞(簇8-10)、皮层细胞(簇11和12)、内胚层细胞(簇13-16)和柱状细胞(簇17-21)。此外,根据标记基因的表达模式,我们可以划分韧皮部和木质部(Fig 2a)。
与之前报告中提到的t-SNE技术相比,UMAP技术生成的簇的拓扑结构揭示了细胞类型内部和细胞类型之间的细胞和细胞核的功能组织。例如,根的分生细胞(即簇8 - 10)定位在UMAP图的中心(Fig 2a)。从这些分生细胞开始,几个细长的细胞突起(如簇3、6、7、12和13)以更多的球状细胞团(如簇1、2、5、11、15和18)结束。细长的簇可能反映了细胞分化过程中转录组程序的进行性变化,而球状簇代表了组成拟南芥根的分化细胞。
Fig S7
为了评估是否可以单独分析sNucRNA-seq数据来解码组织异质性,以达到与scRNAseq数据相似的水平,作者独立分析了拟南芥根核和原生质体的聚类。
使用相同的聚类参数,sNucRNA-seq和scRNA-seq数据分别鉴定出19个和17个聚类(Fig S7)。这些结果表明,核转录组足以揭示拟南芥根系的组织异质性。
Fig S8
Cluster14可以细分成cluster14a(内胚层)和cluster14b(皮层)。AT1G61590(PBL15)、AT2G40160(TBL30)、AT2G48130和AT4G17215是内胚层的marker基因,AT5G18840和AT3G21670(NPF6.4/ NRT1.3)是皮质的marker基因(Fig S8)。Cluster14a具有编码氧化物酶的基因和具有GDSL基序的基因。GDSL家族可以控制细胞分化过程,说明clauster14a可能由分化的细胞组成,这一假设得到了根过氧化物酶在控制活性氧产生以调节细胞伸长和分化中的作用的支持。UPBEAT1基因(AT2G47270)是过氧化物酶基因转录活性和活性氧分布的主要抑制因子,并通过调节细胞增殖和分化之间的平衡来负调节拟南芥根尖分生组织的大小,除了4、10、11和14个集群外,其他基因都广泛表达(Fig S8)。
除了控制细胞分化外,GDSL脂肪酶还在角质素生物合成中发挥核心作用。通过这些数据,作者还发现了其他许多优先在cluster14a中表达饼参与木质素和角质素生物合成的基因,如GPAT5和另一种GDLS基因。之前的研究表明,在侧根出现的位置以及内胚层分化过程中,木质素和角质素会大量沉积。综上所述,UPBEAT1、几个编码过氧化物酶、GDSL基因和其他亚木质素/角质素生物合成相关基因的转录模式,以及与皮层和内胚层标记基因活性相关的基因,表明组成簇14a的细胞是分化的内胚层细胞,其特征是细胞壁的精化。
簇14a中细胞的转录组特征来自于分离的细胞核,而不是来自于分离的原生质体,这可能是由于它们细胞壁的低消化率,这是亚蛋白和角质积累的结果。
Fig S9
Cluster14b的特征是表达皮层中的特异性基因(如AT5G18840和AT3G21670等)。在该cluster中特异性表达的基因中,SCM(AT1G11130)在根表皮细胞的模式化中起关键作用(Fig S9)。Cluster14b中也存在参与脂质代谢的几个基因特异性表达表达(如AT1G45201(TLL1)和AT5G63560)。膜脂重塑在根毛细胞分化中也起着重要作用,综上所述,推测构成cluster14b的皮质细胞在拟南芥表皮根细胞的分化和成型化中发挥作用。
Fig S10
cluster4的特征是特异性表达CEP1 (AT5G50260)和EX1 (AT2G14095)(Fig S10),这两个基因之前被认为是根冠细胞死亡程序的调节因子。此外,作者发现KIRA1是一个控制花发育过程中细胞死亡的基因,在cluster4中特异性表达。其他细胞死亡标志基因(即BFN1、RNS3、SCPL48、DMP4和PASPA3)也主要在木质部簇4和木质部簇21的一个亚群中表达。
结论3 单细胞分辨率ATAC-seq揭示了染色质可及性对基因表达的影响
Fig S11
尽管体细胞之间的基因组信息几乎是相同的,但为了通过细胞类型特异性的转录基因调控来实现其独特的生物学功能,需要基因组信息的不同使用,特别是通过细胞之间不同的染色质可及性来实现。迄今为止,大量RNA和ATAC-seq数据集显示出较低的相关性,这可能是所使用样本的细胞异质性的结果。这一假设得到了人类ENCODE项目的支持,该项目最近发现,在单细胞水平上建立染色质景观对揭示假定的TF结合位点具有很高的信息量。为了更好地评估染色质可及性在控制细胞和细胞类型间植物基因表达中的作用,作者应用10X Genomics的sNucATAC-seq技术对两个独立生物重复分离的拟南芥根核进行了分析。在6768个核中,4764个通过了质控(Fig S11)。
Fig S12
每个细胞核中有10 253个独立的基因组DNA片段被映射到拟南芥基因组中,总共表征了20 803个可访问的位点。在20803个可访问的位点中,作者分别鉴定出3487个和15730个位点具有细胞类型特异性峰和“静态”峰特征(Fig S12)。
Fig 3a-b
染色质的可及性区域大多位于转录起始位点上游1000 bp区间,其中包含顺式调控元件(Fig 3a)和基因的转录终止位点周围(Fig 3b)。
Fig 3c
考虑到可及性染色质区域是促进基因表达的先决条件,我们预计位于TSS附近的细胞类型特异性ATAC-seq峰有助于调节特定细胞的marker基因的表达。因此,作者使用Signac软件包整合sNucATAC-seq和sc/sNucRNA-seq,在细胞类型特异性背景下表达的基因TSS附近寻找染色质开放区域。该策略鉴定出11858个具有RNAseq和ATAC-seq配对峰的基因,并创建了21个与sc/sNucRNA-seq簇对应的sNucATAC-seq簇(Fig 3c)。
Fig S14
为了评估使用sc/sNucRNA-seq数据集根据拟南芥细胞核的染色质可接近性特征对其进行聚类的影响,作者根据细胞核开放染色质的差异峰对其进行了重新聚类(Fig S14),这种方法再次鉴定出21个与我们集成的sNucATAC-seq和sc/ sNucRNA-seq分析鉴定出的集群分布略有不同的集群。这一结果表明,染色质可及性谱足以揭示拟南芥根细胞的细胞复杂性。
Fig 3d-e
为了更好地评价sNucATAC-seq与bulk ATAC-seq数据集的分辨率,作者首先比较了拟南芥根核在一个位置(chr1: 21 067 500-21 103 000)生成的sNucATAC-seq和bulk ATAC-seq。在21个簇中,我们可以清楚地识别出由bulk ATAC-seq技术显示的相同的主要峰(Fig 3d)。此外,sNucATAC-seq方法还发现,在这21个簇的亚群中,有更多的主峰。例如,在sNucATAC-seq簇14和15中,AT1G56320的启动子区域出现了ATAC-seq峰(Fig 3d),AT1G56320在这两个集群中特异性表达(Fig 3e),表明单细胞分辨率的ATAC-seq分析有可能揭示可接近染色质的离散和细胞类型特异性位点。
Fig 4
接下来,作者试图将单细胞的染色质可及性与单细胞的基因表达关联起来。在对scRNA-seq和sNucRNA-seq数据集进行挖掘后,根据其与其他簇的表达倍数变化和最低p值,从每个簇中选出前20个标记基因。由于簇之间存在冗余,最终一共鉴定出370个独特的marker基因,其中336个在其TSS附近至少有一个sNucATAC-seq峰。作者还选取了811个在拟南芥根部各个细胞类型中都表达的管家基因作为对照。
对marker基因的非正态分布数据应用Kendall ‘s taub秩相关检验,观察到几乎所有sc/ sNucRNA-seq和sNucATAC-seq数据集之间都存在显著的正相关(Fig 4 a为单细胞,b为单核),这一结果支持了差异染色质可及性与marker基因的表达模式相关的观点。基于这些结果,我们假设,与它们的转录活性相似,所选基因在TSS位置的染色质可接近性可以用作细胞类型识别的分子标记。相比之下,对照中只有少数显著和较中等的相关性。
以上结果说明,核小体在基因组DNA双链上靠近基因TSS的位置,在控制至少一部分标记基因的活性方面起着关键作用。
结论4单细胞分辨率下的染色质可接近性可以作为指示根毛和内胚层细胞发育状态的分子标记
Fig 5
植物的细胞类型是根据marker基因的表达谱来标注的,通过前一部分的分析说明单细胞的染色质可及性也可以作为一种marker来标记细胞类型。为了进一步验证这一假设,作者利用单细胞分辨率ATAC-seq数据集,重点分析了代表成熟拟南芥根毛和内胚层细胞的3个和4个簇(cluster1、cluster2、cluster3和cluster13、cluster14、cluster15、cluster16,Fig 2)。
在与拟南芥基因TSS配对的11858个sNucATAC-seq峰中,分别有20个和26个在根毛和内胚层cluster中被特异性鉴定。利用scRNA-seq和sNucRNAseq数据集,作者分别鉴定出19个(95%)和25个(96.2%)基因在拟南芥根毛和内胚层细胞中优先表达(即该基因在根毛或内胚层超簇中的表达至少等于该基因在其余5个大簇中的表达,Fig5 a是单核,b是单细胞),说明染色质可及性可以作为一种分子标记来注释特定的细胞类型。
总结
(1)作者首次验证了通过分离拟南芥根部核以获取单细胞水平基因表达信息的可靠性。
(2)在单细胞水平上提供了转录组学和染色质可及性数据的整合。(3)证明了单细胞水平的特异的染色质可及性可以作为一种marker来鉴定细胞类型。