原文:这篇文章是18年4月发表在Cell上的, 原文链接: Integrated Single-Cell Analysis Maps the Continuous Regulatory Landscape of Human Hematopoietic Differentiation,DOI: https://doi.org/10.1016/j.cell.2018.03.074
概述:
这篇文章整合了scATAC-seq和scRNA-seq数据,使用纯生信计算的方法,探究造血分化过程中染色质的开放状态、TF motif、TF expression 及cis-regulatory elements 之间的动态变化和相互作用。
文章思路:
- 首先利用scATAC-seq数据从chromatin accessibility入手,分析造血分化过程染色质开放状态图谱的异质性;
- 用ChromVAR R包预测TF的活动;
- 采用多种聚类方法,如通过TF Z scores利用Hierarchical clustering 和t-SNE聚类,并采用了reference guided approach,基于bulk sample和算法对单细胞数据进行降维聚类分析;
- 整合scRNA-seq 和scATAC-seq数据分析TF与chromatin accessibility,以及顺式调控元件和邻近基因的表达的相互关系。
数据概览
Datatype | Sample/Platform | Cell type | Data sources |
---|---|---|---|
scATAC-seq | bone marrow | 8 cell populations | this paper |
LMPP+monocytes | Corces et al., 2016 | ||
scRNA-seq | 10X genomics | HSC,CMP,GMP | this paper |
CD34,CD14 monocyte | Zheng et al., 2017 | ||
Bulk ATAC-seq and bulk RNA-seq | Corces et al., 2016 GSE74246 | ||
Promoter capture HiC | CD34+ | Mifsud et al., 2015 | |
Promoter capture HiC | monocytes | Javierre et al., 2016 | |
Cis-eQTL | monocytes | Fairfax et al., 2014 |
背景:
造血分化 是从造血干细胞分化为具有不同功能的细胞过程,在成人中主要发生在骨髓,最终产生淋巴系细胞(B,T,NK cell),髓系-粒系(monocyte, granulocyte),红系(Ery,mega)等细胞类型,是研究干细胞分化、肿瘤免疫、血液疾病等的良好模型。造血分化过程是一个复杂、多阶段的,受多种因子调控的过程,单细胞表观基因组分析有助于解析造血干细胞转录和细胞命运异质性的顺式和反式调节机制。
ATAC-seq 是2013年由斯坦福大学William J. Greenleaf和Howard Y. Chang 实验室开发的用于研究染色质开放程度的方法, 原理是通过转座酶Tn5容易结合在开放染色质的特性,然后对Tn5酶捕获到的DNA序列进行测序。ATAC-seq与传统的DNase-Seq及FAIRE-seq相比的优点是所需细胞量少,实验简单,可以在全基因组范围内检测染色质的开放状态。
这篇文章的通讯作者也是ATAC-seq开发者William J. Greenleaf和Howard Y. Chang,他们实验室最近几年发过好多篇利用ATAC-seq 研究chromatin accessibility的大文章。感兴趣的可以看看他们的实验室主页,Greenleaf lab和chang lab。
Nat Methods. 2013 Dec;10(12):1213-8. doi: 10.1038/nmeth.2688. Epub 2013 Oct.
结果
-
scATAC-seq流程
从健康人捐赠的骨髓中分选单个细胞,然后细胞捕获,转座酶结合,PCR扩增和测序,得到造血系统10个细胞类型的染色质开放图谱。
-
ChromVAR 预测与chromatin accessibility landscape(CAL)变化相关的TF motif
开放染色质通常也被认为活性染色质,当染色质由致密的状态解开双螺旋时,转录因子、顺式调控元件等便可以结合在开放染色质区域,进而调控转录,因此,由染色质的开放状态预测转录因子的活动,可以进一步研究研究转录调控机制。
常见的motif分析流程,一般首先得到差异peak,然后用homer等软件预测motif,再结合TF 数据库等;这里使用的ChromVAR是专门用于分析chromatin accessibility 的一个具有多种功能的R包,其中之一就是鉴定不同细胞的TF motif。
通过这种方法发现了造血分化中主要的调控因子GATA1, BATF, CEBPB等。
-
多种方法对TF motif聚类
首先利用TF Z scores进行层次聚类(图A),发现了HOX TF 在HSC中富集,在其他分化细胞中低表达,可能与促进细胞的干性和多能性有关。
然后利用t-SNE以TF Z-scores为特征可视化造血分化过程,可以明显看到红系,髓系,淋巴系的分化轨迹。
但是,TF Z scores 聚类和TF Z score 与t-SNE结合聚类的方法都存在缺点:前者不容易鉴定chromatin accessibility 与其他生物变量间的关系,如细胞周期,细胞间的信号依赖;后者对细胞间距离难以解释;因此文章中又采用了新的算法——reference guided approach,即基于bulk sample 的chromatin accessibility 和相关的调控元件。原理类似于scRNA-seq中提出的reference component analysis (RCA) 算法(PMID: 28319088,健明师兄前不久刚介绍过这篇文章,单细胞转录组探索CRC病人的一致性) 。首先对bulk ATAC-seq sample进行主成分(PC)分析,然后对PC在单个细胞中比例进行打分,最后根据PCs标准化后的分值与其他细胞的相关系数进行聚类。
-
从头鉴定细胞类型
不知道细胞表面分子标记物,利用k-medoids clustering对PC分析中的前5种主要成分聚类。鉴定出14个cluster,大部分与有细胞标记物聚类的结果重合,并发现了CMP包含4个cluster 和特有的TF motif如GATA1,BCL11A 和SPI1(PU.1)。
-
转录组与chromatin accessibility结合
用10Xgenomics 平台对HSC,CMP,GMP进行单细胞测序,同时使用他人关于monocyte scRNA-seq数据,基于 reference-guided 方法 配对 scATAC-seq 和 scRNAseq profiles 。根据这种方法,他们将髓系分化基因的动态表达映射到染色质的动态变化,并且发现了已知的髓系分化调节因子的预期表达模式。还将TF的表达与TF motif对比。
-
顺式调控元件与基因表达
共发现了14,005个顺式调控元件,这些调控元件随着染色质开放状态的变化也呈现显著的异质性。
他们推断远端调控元件的动态激活模式与附近表达的基因之间的相关性可用于将增强子与靶基因连接,进而发现了CEBPD的远端调控元件与CEBPD的表达高度相关。整合启动子捕获 Hi-C 数据,发现形式环可以促进调控元件与基因的结合。最后用这些单细胞数据去看cis相关的数量表达性状cis-eQTLs是否与增强子-靶基因相互作用存在overlap,最终发现cis-eQTL强烈富集scATAC / scRNA-seq相关峰 - 基因对,在PCHiC环处只观察到适度的富集。
思考
纯生信分析能发Cell,这篇文章的亮点有:
- 整合了单细胞表观组和转录组两个热点分析(scATAC-seq和scRNA-seq);
- 采用了多种算法和新颖的分析方法,如聚类的算法就包括TF Z-scores,t-SNE, K-medoids, reference guided approach等,用ChromVAR预测chromatin accessibility相关的TF motif;
- 数据量非常大,还结合了之前很多bulk sample和sc sample的数据,以及启动子捕获PC HiC 数据,cis-eQTL数据等,
- 转录调控机制的研究,整合分析了开放染色质与 TF motif, TF motif 与TF expression 以及顺式调控元件与TF的相互作用
公布于 2018-05.22
第1周 2018-05.21-05.27