一句话简介:使用sci-ATAC-seq检测了L2期幼虫的单细胞染色质可及性,探索了秀丽隐杆线虫各个细胞类型的调控DNA。
全文链接:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC8494234/
背景:
(1)基因表达的特定变化对于细胞状态的改变至关重要,了解基因表达的调控具有重要意义;目前线虫已经获得了全面的单细胞基因表达图谱,而不同细胞类型和生命周期的调控元件图谱有待完善;
(2)基因的表达调控具有高度的细胞类型特异性,缺乏细胞精度的调控元件图谱,无法揭示这些调控事件;即传统bulk测序构建的图谱:
1. 无法区分同一基因多个调控位点是否存在细胞类型特异性;
2. 检测灵敏度低,部分高度细胞类型特异性的区域信号可能被噪音掩盖;
3. 由于存在随发育特化激活的区域,因此可能在解释差异活性位点时造成误差;
结果
1.使用sciATAC-seq检测秀丽隐杆线虫中的单细胞染色质可及性
为了匹配sci-RNA-seq数据,作者将一群同步的野生型线虫培养至L2中期,然后固定、分离细胞核,进行sci-ATAC-seq, 最终总共收集了30930个细胞的sciATAC-seq数据。然后使用LDA(改进的潜在狄利克雷分配模型)对数据进行了可及性峰值检测和细胞聚类。

- Fig1.迭代峰值调用过程可从单细胞数据中产生更多的可及性峰
值得注意的是,作者通过检测每个峰上信号的局部最大值,将具有多个峰值的峰分成了单独的连续段,以确保更好地捕获可能包含多个结合的可及性区域。秀丽隐杆线虫L2期幼虫的可及性区域数据从如下链接获取:http://genome.ucsc.edu/cgi-bin/hgTracks ?db=ce11&hubClear=http://waterston.gs.washington.edu/atacTissue/Durham_hub.txt
2.单细胞染色质可及性峰与已发表的Bulk 染色质分析的调控区域相一致
-- bulk ATAC-seq 与 TF Chip-seq 数据
在通过迭代峰值调用程序之后,总共获得了36339个单细胞染色质可及性峰区域(多峰拆分之后为38017个峰)。然后作者将数据与秀丽隐杆线虫多生命周期的全线虫ATAC-seq数据(Jänes et al. 2018)和来自 modERN 427个TF chip-seq数据(Kudron et al. 2018)进行了比较。

- Fig2. 从sciATAC-seq中鉴定的可及性峰与整个线虫中现有染色质可及性数据鉴定的可及性峰显示出了相当大的重叠。
结果显示:sciATAC-seq中 25675/38017 (约 66%)个peaks 与bulk ATAC-seq peaks总体重叠(bedtools intersect),总共覆盖了 20234260 bp的序列(约占基因组 20.2%)。 约81%(30886/38017)的peaks与TF CHIP-seq峰重叠。此外,从相反的角度来看,bulk ATAC-seq中约69%的位点在sciATAC-seq也被检测了出来。 modERN TF位点中 57%与sciATAC-seq峰重叠,进一步分析发现不重叠的这些区域可能是来自非L2期线虫样本(Fig2C)。
3. LDA建模揭示了37个细胞簇
为了在组织和细胞类型层面解释数据,作者应用LDA对scATAC-Seq数据进行了处理,训练了一个包含55个主题的LDA模型,包括 30870行(过滤检测峰值太少的细胞),55列按主题划分的细胞矩阵,以及一个包含32214行和55列的按主题划分的峰矩阵。接着他们删除了15个在任何紧密分组的细胞子集中概率都不高的主题,然后将在剩余的40个主题中概率>50%的细胞分配给“主题簇”,其中3个少于50个细胞主题被删去,最终此过程将总共 24503个细胞分配给了37个主题簇以供进一步分析。

- Fig3. LDA建模产生了37个主要的细胞簇
4.主题对应于特定的组织身份
接下来作者试图确定根据37个主题对细胞类型进行聚类之后,这些细胞聚类是否代表不同的细胞类型。注释主题细胞类型的一种方法是参考已知的基因位点,类似于scRNA-seq数据中识别簇的标记基因的方式。由于缺乏此类数据,作者采用了如下方法:
(1)寻找每个主题中scATAC-seq峰与细胞类型特异性TF的chip-seq峰的重叠(Fig4);
(2)利用峰值-基因分配及其相关表达模式将基因和主题关联起来,计算每个主题前250个特异性峰,然后计算特异性峰对应基因的组织表达水平,并计算与随机基因表达的log2比值,根据比值分析主题是否特定的细胞类型有关。

- Fig4. 每个主题的重要峰与细胞类型特异性TF-Chip 峰的重叠情况

- Fig 5. 主题特异性峰往往靠近组织特异性基因
确定细胞类型之后,作者比较了细胞核数量和基于解剖学结构预期的细胞核数量之间的一致性。此外,作者再次分析了与TF Chip-seq位点没有重叠的峰。(1) 与TF Chip-seq重叠的峰值往往在L2期幼虫中具有更多的细胞(2)没有重叠的峰仍然有明显的主题特异性 (3)超过一半没有重叠峰的对神经元或生殖腺有贡献。由此推测 ChIP-seq可能缺乏找到仅限于L2中少数细胞特异性调控位点的灵敏度。因此,我们得出结论,不与 TF ChIP-seq 位点重叠的 sci-ATAC-seq 峰很可能是高度细胞类型特异性的,或者特定于尚未用 ChIP-seq 测试的 TF。

- Fig 6. 新的与modeRN ChIP-seq 没有重叠的染色质可及性峰
接着作者分析了组织特异性基因的scATAC-seq 信号,发现这些基因的染色质可及性模式与组织表达模式高度一致(Fig)。hlh -1、pha-4(咽部组织的主要调节因子)、elt-1、col-160(在 L2 的无缝皮下组织中表达的胶原基因)、bbs-8(在纤毛感觉和氧感觉神经元中表达的受体编码基因)、unc-47(在 GABA 能神经元中表达的基因)、elt-2、T02B11.3(在鞘胶质细胞中特异表达的基因)和glh-1(在生殖系中特异表达的基因)均在预期的组织类型中表现出富集的可及性。数据还表明差异亚型表达的模式;

- Fig 7. 已知组织特异性基因显示特定主题的染色质可及性。
他们发现了在pha-4基因座上还存在异构体特异性染色质可及性模式,并探索了具有这一模式的其他基因(Fig S12)

- Fig S12 具有多个启动子染色质可及性活性的基因提示了异构体的使用
5. 对来自单个组织类型的细胞进行LDA建模,可以检测细颗粒度的细胞类型
(1)基于解剖位置Marker划分细胞亚型;
(2)神经元细胞亚簇划分

- Fig 8. 肌肉和肠道细胞的亚聚类根据前后体轴的位置将它们分开

- Fig 9. 神经元的亚聚类揭示了区分不同细胞类型的更精细结构。
讨论
- 利用sciATAC-seq 绘制了秀丽隐杆线虫第一张按细胞类型解析的调控元件图谱;
关注点:
- sciATAC-seq与bulk ATAC-seq和 TF Chip-seq的比较分析;
- 如何将LDA建模的主题与细胞身份进行对应
(1)scATAC-seq peaks与组织特异性TF Chip-seq峰的重叠;
(2)特异性峰匹配基因的组织表达模式 - 如何利用单细胞可及性图谱进行生物学解释
(1)细胞核数与解剖学细胞数目比较
(2)组织特异性表达基因的染色质可及性概貌
(3)异构体特异性可及性模式