[图片上传失败...(image-e0cc23-1727284601103)]
Basic Information
- 英文标题: Deciphering cell states and genealogies of human haematopoiesis
- 中文标题:解析人类造血的细胞状态和谱系
- 发表日期:22 January 2024
- 文章类型:Article
- 所属期刊:Nature
- 文章作者:Chen Weng | Vijay G. Sankaran
- 文章链接:https://www.nature.com/articles/s41586-024-07066-z
Abstract
Para
- 人类血液系统通过有限数量的长寿造血干细胞(HSCs)的分化和大量扩增来维持。
- 这一过程的扰动是多种疾病的基础,但人类造血的克隆贡献及其随年龄的变化仍不完全清楚。
- 尽管最近从模型系统的条形码研究中获得了见解,但同时在人类中检测自然条形码的细胞状态和系统发育仍具有挑战性。
- 在这里,我们介绍了一种改进的单细胞谱系追踪系统,该系统基于对自然发生的线粒体DNA突变的深度检测,同时读取转录状态和染色质可及性。
- 我们使用这个系统来定义HSCs的克隆结构,并绘制克隆的生理状态和输出。
- 我们发现HSC克隆的功能异质性在数月内是稳定的,表现为总HSC输出的差异以及倾向于产生不同成熟细胞类型的偏倚。
- 我们还发现,随着年龄的增长,HSC克隆的多样性显著减少,导致形成具有多个不同克隆扩张的寡克隆结构。
- 因此,我们的研究提供了一个克隆解析和细胞状态感知的人类造血单细胞分辨率图谱,展示了人类HSC克隆未被充分认识的功能多样性,并在更广泛的范围内,为在人类健康和疾病中精细研究多种组织的克隆动力学铺平了道路。
Main
Para
- 造血干细胞(HSCs)维持着终身的血液和免疫细胞生成,具有广泛的治疗应用,并作为理解干细胞生物学的范例。
- 近期研究表明,HSCs在功能上是异质的,具有多样的克隆行为。
- 为了更深入地理解HSCs的功能多样性,关键在于追踪造血过程中的克隆和亚克隆关系,以揭示HSC在健康状态、血液疾病、癌症以及HSC功能常受扰乱的衰老环境中的贡献和行为。
Para
- 移植实验已经证明了造血干细胞(HSCs)的克隆异质性,但其与稳态造血的相关性仍不清楚。
- 在模式生物中,可以通过对造血干细胞进行遗传标记来研究稳态下的HSC行为,但标记效率和实验方法的变异性导致了关于HSC克隆如何贡献于造血的不同观点。
- 尽管在基因治疗试验中的罕见移植情况下,可以对人类HSC进行遗传标记,但这种外源性标记不能在人类中常规使用。
Para
- 体细胞获得的突变作为自然积累的条形码,可用于人类样本的回顾性谱系追踪。
- 最近的研究通过全基因组测序分析由单个造血祖细胞分化而来的细胞克隆,推进了我们对人类造血克隆动态的理解。
- 然而,这些方法无法保留原始细胞状态,而这种测量对于展示细胞状态如何影响造血干细胞和其他细胞类型在造血中的行为和贡献至关重要。
- 原则上,能够同时提供单细胞丰富细胞状态读数并从自然细胞条形码中获得详细谱系信息的技术,将克服这一局限。
- 我们和其他研究者先前证明了线粒体DNA突变作为人类自然细胞条形码的潜力。
- 然而,现有方法只能检测到有限的一部分mtDNA突变,阻碍了解析精细尺度亚克隆关系和层级的能力。
Para
- 我们在此介绍一种新方法,单细胞调控多组学(转录组学和染色质可及性)与深度线粒体突变分析(ReDeeM),其突变检测率提高了约十倍。
- 我们应用ReDeeM生成了一个克隆解析的、单细胞转录组和可及染色质图谱,涵盖了来自12位捐赠者的约15万个人类造血细胞,这些细胞经过富集以确保适当覆盖稀有的造血干细胞和祖细胞(HSPC)群体。
- 通过这种方法,我们定义了人类造血的克隆结构,并展示了单个HSC克隆对总体和谱系特异性产出的贡献。
- 最后,我们评估了这些模式如何随人类衰老而变化。
Single-cell deep mtDNA mutation recovery
Para
- 许多特征使mtDNA非常适合作为自然进化的条形码,包括其基因组的紧凑性(约16.7 kb)、高拷贝数(每个细胞数百到数千个)和高自发突变率(估计比核DNA高10到100倍)。
- 因此,已经有许多努力尝试利用mtDNA突变作为内源性、进化的细胞条形码,用于谱系追踪和克隆推断,这些努力为诸如血液癌症研究等过程提供了见解。
- 然而,由此产生的系统发育分析的分辨率存在局限性。
- 检测特定亚克隆中发现的罕见mtDNA突变的能力受到区分测序伪影和真实变异的挑战的阻碍。
- 为了提高我们调用更完整mtDNA突变集的能力,我们试图使用单分子共识校正,这可以最小化测序和PCR错误的影响(方法)。
- 我们通过修改10X Genomics平台的基于液滴的单细胞多组学方法,使用完整细胞并进一步优化了最大化mtDNA覆盖率的协议,同时保留了单细胞RNA测序(scRNA-seq)和单细胞转座酶可及染色质测序(scATAC-seq)文库的质量(图1a,补充图1和方法)。
- 我们设计了用于基于杂交捕获的mtDNA特异性探针(补充数据1和方法)。
- 为测序生成了三个独立的文库(mtDNA、ATAC和RNA),并带有匹配的细胞条形码以便下游整合(图1a)。
- 细胞条形码,加上mtDNA片段的起始和结束位置,作为内源性独特分子标识符(eUMIs),无需人工条形码(eUMI碰撞率约为3%;方法和扩展数据图1a)。
- eUMI使得单分子共识错误校正成为可能,从而显著提高了变异调用的灵敏度和准确性,进而促进了低异质性罕见mtDNA突变的检测(扩展数据图2和补充方法)。
- 我们基于eUMIs开发了一个开源的计算流程(redeemV和redeemR包),用于单细胞多组学分析中的共识mtDNA突变调用。
Fig. 1: Single-cell deep mtDNA mutation detection with joint multiomics.
[图片上传失败...(image-301658-1727284601103)]
- a, ReDeeM工作流程示意图。GDN,1%糖基薯蓣皂苷(方法部分)。
- b, 在线粒体DNA富集前后每个细胞的mtDNA拷贝数和UMI组大小的比较。UMI组大小是每个UMI组中原始读数的数量。Q30,测序质量评分30或以上(准确度≥99.9%)。
- c, 在7,104个细胞中,通过mgatk软件包在mtDNA富集前和通过UMI共识调用后在mtDNA富集后确定的mtDNA突变总数比较。
- d, 在优化协议下,重链(H)和轻链(L)的单核苷酸和三核苷酸变化的每个类别的突变特征。突变特征在未过滤(顶部)、通过UMI共识调用得到的4,831个mtDNA突变(中部)和之前报道的bulk mtDNA突变特征(底部,改编自参考文献35)之间进行比较。
- e, 通过mgatk在mtDNA富集前和通过UMI共识调用在mtDNA富集后每个细胞中确定的mtDNA突变数量的分布。
- f, 在mtDNA富集前(通过mgatk,左侧)和后(通过UMI共识调用,右侧)的网络连通性分析。每个点代表一个细胞,每条线连接具有共享突变的细胞。连通性定义为与任何给定细胞共享至少一个mtDNA突变的"邻居"细胞的数量。Lib.,文库。
Para
- 作为ReDeeM的初步基准,我们对来自一位健康年轻捐赠者(31岁)的7,104个人类CD34+ HSPCs进行了分析。
- 对靶向mtDNA文库的深度测序显著增加了mtDNA片段覆盖率(平均每个细胞51.7个线粒体基因组拷贝,而未经富集的为14.3个)以及理想的eUMI组大小用于共识校正(平均每个eUMI拷贝4.8个原始读数,而未经富集的为1.6个;图1b)。
- 经过严格的多步骤过滤,我们在7,104个细胞中鉴定出4,831个高置信度的mtDNA突变,这比之前报道的方法高出十倍以上(图1c,扩展数据图3,方法及补充说明)。
- 我们进一步检查了这4,831个mtDNA突变,并验证了它们在每个eUMI组中通常由多个读数支持,具有高共识分数和配对末端链之间的一致重叠(扩展数据图1c,e–g)。
- 值得注意的是,这4,831个mtDNA突变的突变特征与之前报道的mtDNA突变谱非常吻合(图1d)。
- 因此,每个细胞呈现的mtDNA突变数量显著增加(中位数为九个,而未经富集的为一个),且这些突变与其他细胞共享,从而将细胞间的连接性提高了一个数量级(图1e,f)。
- 这种增强的细胞间连接性为精细尺度的亚克隆和系统发育分析提供了前所未有的机会。
- 我们还评估了来自相同细胞的另外两种模态——scRNA-seq和scATAC-seq的数据质量。
- 这两种模态均表现出优异的捕获效率,每个细胞的中位数为5,084个转录本和15,590个ATAC片段。
- ATAC插入显示了预期的尺寸分布,并且在转录起始位点高度富集(补充图1c,e,f)。
- 此外,大多数mtDNA突变未发现显著的选择性特征,表明总体上呈中性,使得这些突变可以作为无害的追踪标记(扩展数据图4和补充说明)。
Para
- 为了测试 ReDeeM 生成的系统发育重建的准确性,我们使用了 Kras;Trp53 驱动的肺腺癌谱系追踪小鼠模型来检测同一单个细胞中核基因组中的工程化 CRISPR 基因编辑的进化条形码和自然发生的线粒体体细胞突变。
- 在两个实验批次中,共采样了十个肿瘤(第一批次六个,第二批次四个)。
- 由 ReDeeM 确定的细胞间亲缘关系和克隆分组在单细胞水平(亲缘关系正相关的中位数,或亲缘关系一致率,为 0.78)和克隆簇水平(在不同聚类分辨率和样本中的调整后兰德指数为 0.2–0.7;扩展数据图 5,补充图 2 和 3 及方法部分)上均得到了 CRISPR 基因编辑方法的有力支持。
- 此外,对单菌落全基因组测序谱系追踪数据的线粒体突变重新分析显示,克隆和亚克隆一致性,尽管灵敏度有限,与 ReDeeM 增强突变检测能力相比(扩展数据图 6 和补充说明)。
- 这些发现与最近一项报告一致,该报告显示在高频 mtDNA 突变方面与菌落全基因组测序一致,但在低频 mtDNA 突变中噪声更多(补充说明)。
- 综合来看,这些独立验证支持 ReDeeM 能够稳健地检测 mtDNA 突变并实现系统发育推断。
Haematopoietic phylogenies and cell states
Para
- 我们接下来使用ReDeeM研究了人类造血过程。
- 我们从两位健康的年轻捐赠者(分别为31岁和26岁,分别标记为young-1和young-2)收集了骨髓吸出物,并分离了单核细胞(主要是分化的血细胞和前体细胞)以及CD34+ HSPCs,以确保未分化和更分化细胞的充分代表性。
- 我们在young-1和young-2中分别对11,009个造血细胞(5,415个骨髓单核细胞(BMMCs)和5,594个HSPCs)和15,101个造血细胞(7,147个BMMCs和7,954个HSPCs)进行了三种模态的 profiling(图2a)。
- 我们确信在young-1的BMMCs和HSPCs中分别识别出3,896和4,803个mtDNA突变,在young-2的BMMCs和HSPCs中分别识别出4,087和5,137个mtDNA突变。
- 基于共享的深层mtDNA突变谱,我们使用邻接法算法重建了每位捐赠者造血部分的系统发育树(图2b,补充图5a和方法)。
- 所得到的树得到了多个mtDNA突变的有力支持(补充图4a),表现出高度的多克隆性,这与基于健康捐赠者造血克隆核基因组测序的最近系统发育分析一致。
Fig. 2: Fine-scale lineage tracing with simultaneous state profiling for human haematopoiesis at steady state.
[图片上传失败...(image-6f741a-1727284601102)]
- a, 人类造血细胞ReDeeM实验的示意图。
- b, 基于共享mtDNA突变使用邻接法构建的供体年轻-1造血细胞的系统发育树。每个细胞的可共享mtDNA突变数量已标明,中位数为十(本文中用于树状图可视化的为进化树图)。
- c, 年轻-1的联合多组学聚类(与b中相同的细胞)。加权最近邻均匀流形近似和投影(wnnUMAP)显示了11,019个单细胞的ATAC和RNA联合图谱。HSC,造血干细胞;MPP,多能祖细胞;MKP,巨核细胞祖细胞;CMP,普通髓系祖细胞;GMP,粒细胞-单核细胞祖细胞;MDP,单核细胞-树突状细胞祖细胞;MEP,巨核细胞-红细胞祖细胞;CLP,普通淋巴系祖细胞;LMPP,淋巴-髓系启动祖细胞;ProB,B细胞祖细胞;EryP,红细胞前体;Mono,单核细胞;cDC,常规树突状细胞;pDC,浆细胞样树突状细胞;NK,自然杀伤细胞。
- d, 分析造血干细胞(HSCs)向髓系和巨核-红细胞系分化轨迹中的染色质可及性(伪批量ATAC,左)、mRNA表达(中)和SPI1和GATA1转录因子(TFs)的DNA结合活性(右)。基于JASPAR2020人类转录因子数据库,使用ChromVar计算转录因子DNA结合基序频率的偏差。
- e, 测量不同细胞类型中的mtDNA突变负担;n = 11,019个细胞。箱线图显示了25th-75th百分位数的数据,须延伸至1.5×四分位距(IQR)内的最小和最大值。P值来自双侧Wilcoxon秩和检验。
- f, 系统发育树和多组学基础细胞类型之间的综合分析。突出了细胞类型限制的局部类群示例(类群i-viii)。富集P值通过单侧二项式检验后进行q值校正计算。
- g, 基于谱系信息mtDNA突变(11,009个细胞对631个变异)的细胞类型起源分析。颜色强度表示每个目标细胞类型(x轴)在查询细胞类型的mtDNA突变基础k最近邻(KNN)中的比例(y轴)。
Para
- 接下来,我们使用每个叶(单个细胞)在我们的系统发育树中可用的转录组和表观基因组信息来评估细胞状态。
- 我们使用加权最近邻(WNN)指标整合这两种模态,并识别出17种主要的造血细胞类型/簇(图2c和补充数据2)。
- 单个细胞的scRNA-seq和scATAC-seq谱图的配对也使我们能够探索造血细胞命运决策中的调控回路。
- 例如,在其他髓系谱系和巨核细胞/红细胞谱系之间的分支路径上,我们观察到主要的转录调控因子SPI1和GATA1是如何通过与特定的调控元件结合而被激活,并随后促进分化轨迹,其特征是其中一个或另一个转录因子基序的可及性增加(图2d)。
- 我们发现GATA1基序在HSC分化过程中开始激活得更早,即使在低GATA1表达水平下,与SPI1相比,这与之前的研究一致39,40。
- 有趣的是,HSCs的mtDNA突变负担显著低于更成熟的祖细胞和分化细胞,这表明在相对静止的HSCs分化过程中,细胞快速分裂时会发生额外的亚克隆mtDNA突变41,如以下讨论所示,这为探索不同细胞类型之间的系统发育关系提供了机会(图2e和补充图5c)。
- 总的来说,我们的数据提供了一个克隆解析的、细胞状态感知的人类造血细胞图谱,分辨率达到单细胞水平,使得对这一复杂分化过程背后的调控机制进行前所未有的推断成为可能。
Haematopoietic cell-type origins
Para
- 细胞状态感知的人类造血系统发育树使我们能够探索不同血液和免疫细胞类型的发育起源和相互关系,其中一些细胞类型尚未完全了解。
- 将多组学数据衍生的细胞类型注释映射到发育树上显示,由于多克隆起源,不同造血细胞群体在树上的分布广泛。
- 然而,有趣的是,我们还识别了许多精细的亚克隆结构,或称进化枝(即,从共同祖先衍生出的完整细胞集,从而涵盖发育树的一个分支),其中在两名供体中分别有1,650和2,079个进化枝显著富集于特定细胞类型(假发现率(FDR) < 0.2,倍数变化 > 2)(图2f,补充图4b和5d及补充数据3)。
- 接下来,我们使用基于mtDNA突变的最近邻分析定量评估细胞类型的起源。
- 如预期的那样,大多数细胞类型(13种中的11种)的最近克隆邻居是相同的细胞类型。
- 值得注意的是,这一分析在很大程度上重建了先前在传统造血研究中广泛描述和表征的血液细胞类型起源的层次结构(图2g和补充图5e)。
- 然而,我们的分析也揭示了一些意想不到的见解。
- 例如,明确界定产生传统树突状细胞和浆细胞样树突状细胞(分别为cDCs和pDCs)的祖细胞群体一直具有挑战性。
- 在我们的数据中,cDCs和pDCs显示出较少受限制的克隆起源,并且两者似乎都有更多的髓系起源,这与最近在小鼠中的谱系追踪研究相呼应。
- 总的来说,我们的方法解析了天然稳态人类造血的克隆和亚克隆关系,并将这些关系与丰富的细胞状态读数联系起来。
HSC cell-state heterogeneity
Para
- 在系统发育树中关系更密切的克隆与造血细胞状态之间的耦合可能由以下两个因素之一引起:(1)在表现出谱系偏好的HSC克隆中出现的mtDNA突变;(2)在分化过程中后期获得的mtDNA突变。
- 前一种可能性——或者HSC具有克隆和功能异质性的程度——具有重要的临床意义,但在原生人类造血方面仍不清楚。
- 我们所取得的技术进步为解决这些不同的可能性提供了独特的机会,特别是剖析HSC异质性。
- 为了提高HSC的恢复率,我们首先通过深度分析表型CD34+CD45RA−CD90+群体来富集HSC。
- 然后,我们筛选出特异性表达HSC标记基因HLF和CRHBP的细胞(方法,图3a和扩展数据图7a–e)。
- 我们在young-1和young-2中分别鉴定出5,393和3,292个HSC,这些HSC通过检查其他已知特异性富集在HSC中的标记基因的表达而独立验证,包括MECOM、MLLT3和RBPMS(图3b和方法)。
- 重要的是,为了检查HSC分子和行为异质性的稳定性——从而建立我们的系统发育树与HSC克隆行为之间的确切联系——我们从同一供体(young-1)在4个月的过程中两次采样HSC(图3a)。
- 我们进一步基于WNN空间使用结合转录组和可访问染色质状态对HSC进行无监督聚类,并在该供体中鉴定出14个亚群(图3c)。
- 值得注意的是,所有亚群在ATAC和RNA空间中均一致鉴定,并在两个时间点均可重复检测到(图3c和扩展数据图7f)。
- 在HSC亚群中,我们鉴定了差异表达基因和差异转录因子可访问性(扩展数据图7g和补充图6a)。
- 例如,尽管在所有HSC中总体高表达,但一些关键HSC基因,包括MECOM、FLT3、CDK6、JUN和FOS,在不同亚群中差异表达(图3d和补充图6b)。
- 这些基因已知在HSC功能方面很重要,包括HSC维持、自我更新、分化和炎症反应,这些因素的失调可能导致白血病的发生。
- 我们还发现亚群之间存在几种差异通路,在基因表达和转录因子活性变化水平上均有证据,如BMP–SMAD信号通路改变和AP1信号通路变化(扩展数据图7g和补充图6a),这与之前在小鼠中的研究相似,提示这些通路在HSC异质性中起关键作用。
- 值得注意的是,我们发现主要的HSC亚群在young-2中可重复,但我们也在每个个体中鉴定出特定的稀有亚群(扩展数据图7h–n和补充图6c)。
- 总体而言,我们的数据提供了一个多组学资源,使我们能够解析人类HSC异质性。
Fig. 3: HSC clonal architecture and clonal-dependent cell-state biases.
[图片上传失败...(image-ff5db-1727284601102)]
- a, 实验设计的示意图。骨髓样本从同一个人在相隔4个月的两个不同时间点获取,并通过ReDeeM处理。HSCs通过荧光激活细胞分选(FACS)富集,并通过单细胞基因表达(expr.)标记进一步定义。
- b, HSC分类的验证。展示了多个独立HSC标记的基因表达;n = 34,017个细胞。箱线图显示了25th–75th百分位的数据,须延伸至1.5 × IQR内的最小值和最大值。***P < 2.2 × 10−16,来自单侧Wilcoxon秩和检验。
- c, 基于单细胞RNA和ATAC分析单独,以及基于联合WNN空间的HSC亚群。
- d, HSC亚群间差异表达基因的示例。
- e, 使用共享mtDNA突变(供体年轻-1)从两个时间点采样的HSC的系统发育树。
- f, 使用超几何检验分析HSC克隆群与HSC状态亚群之间的重叠。颜色强度表示组合富集FDR(补充数据4)。
- g, 比较两个时间点HSC克隆-状态富集(enrich.)(如f所示);比较富集倍数变化。颜色强度表示组合富集FDR。
HSC clonal structure
Para
- 接下来,基于5,393个分子定义的HSCs中共享的mtDNA突变,我们重建了一棵系统发育树,展示了HSCs之间的克隆关系。
- 为了研究HSC克隆特征,我们通过将树结构划分为小分支来定义HSC克隆群,这些小分支是最密切相关HSC克隆的组(见图3e和方法部分)。
- 为了清晰起见,此处使用的‘HSC克隆’和‘克隆群’术语指的是在发育过程中共享起源的一组HSCs,而不是指单个HSCs。
- 结果树显示HSCs具有平衡的多克隆结构。
- 总的来说,我们从5,393个单HSCs中定义了78个HSC克隆群。
- 值得注意的是,大多数HSC克隆群可以在同一捐赠者的连续采样中重新观察到,这表明它们代表了至少在体内数月时间内对造血有贡献的HSCs,这是一个时间尺度,大多数非HSC细胞类型被认为至少已经更换了一次。
Para
- 目前尚不清楚不同的造血干细胞(HSCs)是否具有可遗传的细胞状态,或者HSC状态的变化是否代表随机的、短暂波动。
- 我们的数据将克隆身份和细胞状态联系起来,来自同一细胞,因此我们可以直接测量78个HSC克隆群在14个基于细胞状态的多组学HSC亚群中的分布。
- 我们发现48个(约三分之二)HSC克隆群在不同HSC状态中随机分布,而30个(约三分之一)在一种或少数特定状态亚群中显著富集(图3f)。
- 有趣的是,我们发现HSC克隆到亚群的富集在相同供体中跨越两个时间点(相隔4个月)显著相关(图3g),这表明HSC偏好在人类中至少可以持续数月。
- 我们还检查了年轻-2中的HSC克隆结构。
- 与年轻-1的分析一致,我们也观察到多克隆结构,既有随机HSC变异,也有其他克隆,显示出与年轻-1中观察到的相似比例的细胞状态偏好(扩展数据图7o,p)。
- 总之,我们调查了HSC克隆及其分子状态,这表明大约三分之一的HSC克隆具有部分可遗传且相对稳定的状态偏好。
HSC clonal output and cell-type biases
Para
- 传统上,造血干细胞(HSCs)的功能输出只能在移植环境中或通过模型系统中的条形码技术进行测量。
- 鉴于我们在检测深层次线粒体DNA突变作为自然细胞条形码方面的进展,我们推测现在可以在原生造血过程中追踪人类HSC的输出。
- 为了避免特定线粒体DNA突变的脱落或检测失败带来的混淆,我们开发了基于网络传播策略的计算方法——单细胞变异富集网络传播基因组学追踪数据(SCAVENGE–L),该方法最大限度地利用信息丰富的线粒体DNA突变来识别不同HSC克隆的后代(图4a和方法)。
- 通过SCAVENGE–L分析,我们发现大多数细胞可以以极高的分配概率映射到一个独特的HSC克隆组(补充图7a)。
- 为了进一步验证该方法的准确性,我们将基于网络传播的分配与最初识别的HSC克隆组(真实情况)进行了比较。
- 如预期的那样,分配的准确性对于那些具有更高最大分配概率的细胞有所提高。
- 然后,我们过滤了最大概率为0.7的细胞,通过这种方法,超过80%的HSC可以被正确分配到相应的HSC克隆组(补充图7b和方法)。
- 总体而言,在两个时间点对两位捐赠者的基准分析表明,SCAVENGE–L具有强大的稳健性和一致性(补充图7b–e)。
Fig. 4: HSC clonal output activity and lineage biases.
[图片上传失败...(image-12a69d-1727284601102)]
- a, 使用基于mtDNA突变的细胞网络通过网络传播策略将后代细胞分配到HSC克隆群示意图。
- b, 年轻-1中两个采样时间点的HSC克隆输出活性(每个HSC克隆的后代细胞数量)总结。后代数量已标准化为HSC克隆大小。
- c, 两个时间点(时间点1,T1;时间点2,T2)之间的克隆输出活性相关性分析。
- d, 年轻-1和年轻-2中,在两个时间点,每个HSC克隆的输出贡献,按对总后代群体的贡献从高到低排序。虚线表示所有克隆的平等贡献预期。
- e, 对于每个HSC克隆群,显示分化为四种主要谱系的后代百分比:巨核细胞(MK)、淋巴样细胞(Lym)、红细胞(Ery)和髓样细胞(Mye)。在两个时间点均一致富集的克隆被归类为偏倚克隆。克隆谱系偏倚的显著性指示(FDR *0.05–0.20, **0.01–0.05, ***<0.01;补充数据4和方法)。顶部,指示每个克隆在两个时间点的克隆谱系偏倚的倍数变化。
- f, HSC克隆输出活性与克隆谱系偏倚之间的相关性。误差带为线性模型预测的95%置信区间。P值来自Wald检验。
Para
- 造血干细胞(HSC)输出变异和谱系偏倚存在的程度是有争议的,大多数先前的研究依赖于在小鼠模型中的标记和/或移植实验。
- 在供体年轻-1中,22,349个(或59%)已定向和分化的细胞被确信地分配到HSC克隆群中,其中最高分配概率大于0.7(通过SCAVENGE–L)。
- 特定克隆向分化血细胞和免疫细胞的输出可以直接测量,并在对不同HSC克隆群进行克隆大小标准化后进行比较(图4b和方法)。
- 我们发现所有HSC克隆群都在积极产生后代,但克隆之间的输出程度存在一些变异,最高和最低克隆十分位的输出差异为4.9倍(图4b)。
- 有趣的是,这种可变输出活性在跨越4个月的两个时间点上的克隆水平上表现出高度一致性(Pearson相关系数=0.69)(图4b,c)。
- 如预期的那样,在年轻-2中,HSC克隆输出活性也表现出类似的变异模式(最高和最低克隆十分位之间的变化为4.5倍;补充图7f)。
- 我们进一步量化了HSC克隆在造血中的总体贡献,发现基于输出的前50%HSC克隆在两个时间点和两个供体中产生了约60%的成熟造血细胞(图4d)。
- 这些结果表明,大多数HSC克隆积极参与人类稳态造血,但观察到HSC之间存在持续数月的某些变异。
Para
- HSC在天然人类造血过程中表现出谱系偏好的程度尚不清楚。
- 我们的数据允许我们调查分配到不同HSC克隆群体的子代细胞状态。
- 为了清晰起见,本文中使用的‘谱系’或‘谱系偏好’术语指的是基于细胞状态的分化轨迹。
- 我们通过基于多组学数据分组细胞状态定义了四个主要谱系:髓系(单核细胞、GMP、MDP、cDC)、淋巴系(CD4、CD8、自然杀伤细胞(NK)、B细胞、ProB、CLP)、红细胞系(MEP、EryP)和巨核细胞系(MK)(图2c)。
- 然后我们计算了每个HSC克隆群体的谱系贡献。
- 与使用所有细胞预期的谱系分布相比,我们识别出47个(60%)HSC克隆群体在两个时间点上表现出一致的谱系偏好,有31个(40%)HSC克隆未显示出可检测的谱系偏好(图4e,补充数据4和方法)。
- 值得注意的是,偏倚克隆的谱系偏好显示出中等效应大小(中位数为1.55倍变化),但在跨越数月的两个时间点上高度可重复(Pearson相关系数为0.59)。
- 一致地,我们也观察到在年轻-2中有69%的谱系偏倚HSC克隆(补充图7g)。
- 当我们探索克隆输出与谱系偏好之间的关系时,发现淋巴系偏好与HSC克隆输出负相关;红细胞系和髓系与HSC克隆输出正相关,而MK谱系未显示出显著差异(图4f)。
- 这在两个供体中是一致的,并与之前使用正交方法的研究结果一致(补充图7h)。
- 最后,我们开发了一种‘克隆行为轨迹分析’方法,以调查不同克隆功能在输出活性和分化偏好方面的潜在分子驱动因素(扩展数据图8a)。
- 我们识别出多个可访问区域,但不是基因表达变化,这些区域与一个或多个行为轨迹显著相关(2,931个差异峰,FDR < 0.01;扩展数据图8b和补充数据5)。
- 我们通过基因集富集和基序分析调查了与不同偏好相关的峰组附近的基因(扩展数据图8c-e)。
- 有趣的是,这些附近基因的功能让人联想到所检查的相应输出和谱系偏好,这表明染色质可访问性变化可能预示HSC的命运决定,呼应了之前的研究报告。
- 综上所述,这些结果表明HSC在天然人类造血过程中具有中等但相对稳定的谱系偏好。
Oligoclonal expansions in ageing
Para
- 近期研究表明,随着年龄增长,造血干细胞(HSCs)会出现耗竭,同时特定携带疾病驱动突变的克隆会扩张,这增加了患白血病和其他疾病的风险,这种现象被称为克隆造血。
- 然而,这类克隆扩张的检测主要依赖于通过 bulk-测序方法监测特定驱动突变,因此单细胞分辨率下可观察到的克隆复杂程度尚未被研究。
- 为探讨这一问题,我们使用 ReDeeM 对来自两位年长捐赠者的 9,519 和 14,715 个造血细胞进行了分析,这两位捐赠者分别为 76 岁和 78 岁,我们分别称之为 aged-1 和 aged-2。
- 我们在这些年长捐赠者中检测到显著增加的线粒体 DNA 突变负担,涉及所有已识别的细胞类型,这与核基因组中的体细胞突变报告一致。
- 基于共享的线粒体 DNA 突变,我们为每位年长捐赠者重建了系统发育树。
- 值得注意的是,与年轻捐赠者相比,所得树状图显示出明显更多的寡克隆结构。
- 通过简化系统发育树结构的方法,我们分别识别了 aged-1 和 aged-2 的 48 和 84 个克隆群。
- 年长捐赠者拥有多个主导造血结构的大型克隆,克隆多样性(Shannon 多样性指数)低于年轻捐赠者,这一点通过分析五名额外年轻捐赠者和三名额外年长捐赠者的混合样本进一步得到证实。
- 为研究亚克隆动态,我们采用统计测试以量化相对于中性进化模型预期下的克隆大小。
- 我们在年长捐赠者中识别出多个扩张克隆(在正选择下大于 500 个细胞且 P < 0.01),这些在年轻捐赠者中几乎完全缺失。
- 扩张克隆中的细胞比例在 aged-1 中为 34.4%,aged-2 中为 46.3%,而在年轻捐赠者中仅为 3.4% 和 8.7%。
- 接下来,我们推断出每个单细胞的‘健康分数’,定义为相对于剩余群体的生长优势。
- 这些分析显示同一捐赠者内单细胞健康存在变异。如预期,扩张克隆中的细胞显示出高健康分数。
Fig. 5: Clonal structure alterations in human haematopoiesis with ageing.
[图片上传失败...(image-a56f16-1727284601101)]
- a, 比较 mtDNA 突变负担在年轻和老年供体之间不同细胞类型的情况。年轻-1、年轻-2、老年-1 和老年-2 的细胞数量分别为 11,009、15,101、9,519 和 14,715 个(yo,岁)。箱线图显示了第 25 至 75 百分位的数据,须线延伸至 1.5× IQR 内的最小值和最大值。***P < 2.2 × 10−16,来自单侧 Wilcoxon 秩和检验。
- b,c, 来自年轻(b)和老年供体(c)的系统发育树。克隆群在外环上用不同颜色表示。
- d, 两个年轻和两个老年供体中每个克隆对总群体的贡献。
- e, 年轻和老年供体之间克隆组成的 Shannon 多样性指数。
- f, 在老年-1 的系统发育树上映射单细胞适应性评分和具有 LOY 的细胞。外环显示了原始和平滑的 LOY 细胞分布。显示了 LOY 富集的 P 值(以及使用 q 值的 FDR)(单侧二项式检验)。
- g, 每个扩展谱系中细胞类型的贡献。灰色区域表示预期的平衡细胞类型分布。
Para
- 造血嵌合性Y染色体丢失(mLOY)在男性衰老过程中常见,并与多种疾病相关。
- 然而,mLOY的原因和后果尚不清楚。
- 基于单细胞ATAC技术在Y染色体上的片段,我们开发了用于估算单细胞中LOY的定量指标(方法部分)。
- 我们在aged-1和aged-2中分别鉴定出119个和11个具有LOY的细胞,但在年轻男性供体中未发现(扩展数据图9i,j)。
- 对于aged-1,我们在系统发育树上绘制了有或无LOY细胞的身份,发现LOY细胞出现在多个分支中,但在扩展的A族中显著富集,该族显示出最高的适应性评分。
- 有趣的是,我们还鉴定出其他扩展,如扩展的B族没有LOY富集,但可能由不同的驱动因素引起(图5f)。
- 这些结果表明,在aged-1中,LOY事件发生率低,但可能独立发生多次,并在适应性评分较高的细胞中富集,这与之前的报道一致。
- 这一分析的重要注意事项是,使用单细胞ATAC片段检测LOY受限于Y染色体上可访问读数的稀缺性。
Para
- 最后,我们调查了每个扩展谱系内的细胞类型组成,这是通过我们方法提供的联合多组学读数实现的。
- 我们发现,不同的扩展谱系在两位老年供体中都显示出偏斜的细胞类型分布。
- 这一发现通过分析额外的老年供体进一步得到支持(图5g和扩展数据图9e和10h–j)。
- 有趣的是,老年供体1中扩展的谱系A显示出LOY富集,偏向淋巴系,这与我们最近使用群体数据进行的分析相呼应,显示LOY与个体淋巴细胞计数之间存在强相关性。
- 此外,在一位已知在群体中检测到克隆性造血突变的额外老年供体(老年-5)(ASXL1-Q373X)中,所识别的扩展谱系中红细胞减少,这让人联想到Asxl1突变小鼠模型中观察到的表型(扩展数据图10j)。
- 未来进一步结合单细胞基因分型与ReDeeM将有助于明确确定带有驱动突变的克隆,并定义观察到的扩展谱系的潜在分子机制。
- 总的来说,这些结果重塑了我们对老年造血的认识,并且与通常认为的随年龄相关的克隆性造血检测到单一克隆扩展不同,我们检测到了一个更复杂且普遍的寡克隆结构。
Discussion
Para
- 人类造血系统的研究已成为我们理解干细胞生物学的范例。
- 尽管经过数十年的努力,关于人类造血系统的核心问题仍未解决。
- 例如,‘克隆继替’(仅有少数干细胞参与)和‘克隆稳定性’(许多干细胞同时参与)这两种模型究竟哪一种最能描述自然造血过程尚不清楚,同样,未受干扰的造血干细胞群体在分化潜能或谱系偏倚方面的限制程度也不明确。
- 各种基于移植的检测方法以及基于细胞标记的技术,虽然提供了重要见解,但各自存在局限性,特别是在探索这些问题在自然人类环境中的情况时尤为明显。
Para
- 我们在此介绍了一种高分辨率、无需工程化、大规模并行、单细胞谱系追踪方法,可直接应用于人类样本。
- 利用这种方法,我们提供了一个克隆解析和细胞状态感知的单细胞图谱,用于研究人类原生造血过程,并利用该图谱探讨了人体内稳态下造血干细胞(HSCs)的克隆结构和异质性行为。
- 我们显示,在年轻个体中,大多数HSC克隆在稳态下积极参与造血,但克隆特异性的输出活性存在一些差异(约五倍),并且这些差异在至少几个月的时间尺度上稳定维持。
- 我们还证明,存在固有的克隆特异性谱系偏倚,这些偏倚与克隆输出差异一样,在幅度上受限,但在时间上持续。
- 最后,我们通过联合转录组和表观基因组状态识别了HSC亚群,发现一个显著的HSC克隆群体在某些由基因表达和表观基因组状态定义的HSC亚群中富集。
- 有趣的是,我们发现人类原生环境中HSC克隆特异性的细胞状态偏好也是一个相对稳定的固有特征,这与使用基于标记方法在小鼠中的某些发现相呼应。
- 值得注意的是,我们描述的是具有共同祖先的HSC克隆群体的行为和细胞状态偏倚,而不是单个HSC的偏倚。
- 由于骨髓吸液中细胞采样有限,克隆群体中的HSC可能不是最直接的同胞。
- 因此,通过增加细胞数量、位置和时间点的进一步改进采样,将提供对系统发育关系的更清晰视图,这对于识别最近衍生的克隆群体,甚至单个人类HSC所观察到的细胞状态和行为偏倚的机制至关重要。
Para
- 因此,结合之前的研究,我们的工作揭示了一幅正常造血的图景,其中在年轻个体中,造血干细胞对造血的贡献具有丰富且平衡的多克隆结构,每个亚克隆在细胞状态、输出和谱系偏倚方面具有独特但有限的偏好。
- 相比之下,在老年个体中,这种克隆多样性显著下降。
- 克隆扩张,或克隆多样性的改变,涉及各种癌症和癌前病变。
- 然而,克隆多样性减少的原因和后果在很大程度上是未知的,并且在人类中难以研究。
- 我们的结果表明,克隆扩张可能源于多个起源并具有不同的谱系偏倚。
- 我们能够在单细胞分辨率下捕获和表征衰老过程中的克隆扩张,这应有助于深入探索这些扩张克隆的分子本质。
Para
- 更广泛地说,体细胞突变越来越多地被发现对多种疾病过程有贡献,而不仅仅是造血和癌症。
- 与单克隆或单细胞全基因组测序相比,ReDeeM通过共识错误校正显著提高了mtDNA突变的可检测性,并提供了全面的细胞状态信息。
- 它具有高可扩展性,并显著降低了每个细胞的成本,促进了在人类健康和疾病中广泛探索亚克隆变化的可能。
- 未来的改进旨在通过ReDeeM提高系统发育推断,考虑到线粒体基因组的独特动态和其他生物学特征,将能够改善谱系树重建,为深入理解克隆镶嵌如何对多种人类疾病做出贡献铺平道路。
Methods
Bone marrow donors
骨髓捐献者
Para
- 来自健康年轻捐赠者的新鲜骨髓样本在知情同意的情况下被抽取,该样本库协议已获得波士顿儿童医院机构审查委员会的批准。
- 来自老年捐赠者的胸骨骨髓在心脏手术中进行胸骨切开术后收集,该样本库协议已获得马萨诸塞州总医院布里格姆机构审查委员会的批准,并在知情同意的情况下进行。
- 每个捐赠者的信息显示在补充表1中。
Primary BMMC extraction
初级BMMC提取
Para
- 从健康年轻和老年供体中收集骨髓。
- 骨髓吸取物用等体积的洗涤缓冲液(PBS,2%胎牛血清(FBS),1 mM EDTA)稀释。
- 将Ficoll介质加入SepMate管(STEMCELL Technologies,目录号85460)中,然后将稀释的骨髓样本层叠在其上,随后在室温下以1,200g离心20分钟。
- 含有单核细胞的顶层被转移到一个新管中,然后该管用洗涤缓冲液填满。
- 单核细胞以300g离心8分钟。
- 弃去上清液,细胞洗涤两次,并重悬于洗涤缓冲液中以进行进一步富集或冷冻缓冲液(10% DMSO在FBS中)。
Enrichment for HSPCs
HSPCs 的富集
Para
- 从上一步中分离出的BMMCs开始,我们使用EasySep人脐血CD34阳性选择试剂盒II(STEMCELL Technologies,目录号17896)富集CD34+细胞。
- 简要地说,EasySep人CD34阳性选择鸡尾酒(STEMCELL Technologies,目录号18096 C)被添加到BMMC悬液中,浓度达到100 µl ml−1,并在室温下孵育10分钟。
- EasySep Dextran RapidSpheres(STEMCELL Technologies,目录号50100)被涡旋并添加到每个样本中,浓度达到50 µl ml−1,混合物在室温下孵育3分钟。
- 接下来,向管中加入洗涤缓冲液(7 ml),细胞在The Big Easy EasySep磁铁(STEMCELL Technologies,目录号18001)中洗涤四次。
- 最后,细胞被重悬于洗涤缓冲液中,并在300g离心10分钟。
- 然后,CD34+细胞沉淀被重悬于冷冻缓冲液(10% DMSO在FBS中)。
Para
- 为进一步富集造血干细胞(HSCs),将一份富集的CD34+细胞染色,使用以下抗体组合之一:(1)CD34 PerCP-Cy5.5(BD Biosciences目录号347222),CD45RA Alexa Fluor 488(BioLegend目录号304114)和CD90 PE-Cy7(BD Biosciences目录号561558),并使用DAPI(Thermo Fisher Scientific目录号D1306)作为活细胞染料;或(2)CD34 BV421(BD Biosciences目录号562577),CD45RA-APC-H7(BD Biosciences目录号560674)和CD90 PE-Cy7(BD Biosciences目录号561558),并使用7-AAD作为活细胞染料(BD Biosciences目录号559925)。
- 随后使用每种抗体3 µl对100 µl细胞悬液进行染色。
- 细胞进一步通过BD FACSAria进行分选,以CD34+CD45RA−CD90+为标准富集HSCs。
- 分选策略见补充信息。
Para
- BMMCs以及富集的CD34+和CD34+CD45RA−CD90+细胞在冷冻缓冲液(10% DMSO在FBS中)中进行了冷冻保存。
- 解冻后,细胞立即进行处理,尽快用于实验,不进行培养。
Principle of ReDeeM
ReDeeM原则
Para
- 我们在此开发了ReDeeM,这是一种基于10X Genomics平台修改后的、大规模并行单细胞协议,能够同时进行多组学分析并深度测序mtDNA。
- 该系统的关键特性如下:(1)优化了最大化mtDNA产量的协议;
- (2)特定富集的mtDNA文库,可以承受非常高的测序覆盖度;
- (3)独特的分子标识符,用于标记单个mtDNA分子,允许使用错误校正以实现高精度mtDNA突变的调用;
- (4)一种稳健的推理算法,利用更深入和改进的mtDNA突变检测进行系统发育重建;
- (5)同时进行的scRNA-seq和scATAC-seq,将系统发育关系与细胞状态读数联系起来。
- 通过ReDeeM,生成了三个独立的文库,包括一个用于深度测序和突变分析的富集mtDNA文库,一个用于基因表达的RNA文库,以及一个用于染色质可及性分析的ATAC文库,所有这些文库都通过可匹配的单细胞条形码连接。
Para
- 遵循我们之前工作的原则28,29,我们首先修改了基于液滴的10X Genomics多组学协议(目录号100283),通过处理整个细胞,而不是细胞核,进行固定和轻度渗透,以最大限度地保留mtDNA。
- 接下来,我们设计了mtDNA特异性探针组,通过DNA杂交来富集线粒体片段。
- RNA和ATAC文库的制备遵循标准的10X Genomics协议,并进行了一些修改。
Para
- 进一步的方法细节在补充方法和 ReDeeM 协议中有所描述。
- ReDeeM 进一步通过共识变异调用流程 redeemV 以及 R 包 redeemR 获得计算支持,用于下游突变质量控制以及单细胞系统发育和综合分析。
ReDeeM protocol
ReDeeM协议
Para
- 详细的协议可作为补充协议提供。
CRISPR lineage-tracing experiment with ReDeeM
CRISPR谱系追踪实验与ReDeeM
Para
- 小鼠实验得到了麻省理工学院机构动物护理和使用委员会的批准(机构动物福利保证,编号A-3125-01)。
- 一个携带条件等位基因KrasLSL-G12D/+和Trp53fl/fl的雄性小鼠胚胎干细胞系被工程化,带有谱系追踪盒。
- 详细的工程化过程,包括载体信息、肿瘤收获和单细胞悬液的制备,如参考文献36中所述。
- 两个独立的小鼠胚胎干细胞系被用于批次1和批次2的实验。
Para
- 批次1(六个肿瘤)和批次2(四个肿瘤)的单细胞用Cell Hash标记,并使用ReDeeM进行表征,除了以下修改:需要额外的目标位点文库。
- 扩增的cDNA文库使用含有Illumina兼容适配器和样本索引(oDYT023-oDYT038,正向:5′CAAGCAGAAGACGGCATACGAGATNNNNNNNNGTCTCGTGGGCTCGGAGATGTGTATAAGAGACAGAATCCAGCTAGCTGTGCAGC;反向:5′-AATGATACGGCGACCACCGAGATCTACACNNNNNNNNTCTTTCCCTACACGACGCTCTTCCGATCT;N表示样本索引)的目标位点特异性引物进一步扩增,使用Kapa HiFi ReadyMix(Roche),如前所述。
Para
- 对于单细胞RNA、单细胞ATAC和线粒体DNA文库的测序,采用了ReDeeM方法中描述的策略,但设计了四组小鼠特异性探针以富集线粒体片段(补充方法和补充数据1)。
- 对于目标位点文库的测序,预期每个细胞总共15,000个读数,并使用了以下读长:Read1,26个循环;i7,八个循环;Read2,290个循环。
Para
- CRISPR和ReDeeM基础上的谱系追踪的综合分析详见补充方法。
mtDNA mutation burden
线粒体DNA突变负担
Para
- 我们使用定量方法估计了线粒体DNA(mtDNA)突变负担。
- 每个细胞中检测到的突变数量是生物学突变负担和技术可检测性的函数,后者受mtDNA捕获率的影响。
- 我们通过两种方式计算mtDNA突变负担:一是相对于mtDNA覆盖度(每个细胞中每个位置的mtDNA拷贝数)进行标准化,二是使用eUMI过滤率,用于校正不同实验中由于测序深度、测序质量等因素引起的批次效应。
- 对于样本j中的单个细胞i,突变负担的计算方式为
Inferring lineage distance and phylogenetic tree using mtDNA mutations
使用线粒体DNA突变推断亲缘距离和系统发育树
Para
- 在完成所有使用 R 包 ReDeeM-R (https://github.com/sankaranlab/redeemR) 的过滤步骤后,包括变异和细胞过滤(扩展数据图 1i;所有包含的参数都可以调整以控制严格性),我们生成了稀疏矩阵 C,以包含所有变异等位基因计数(细胞与 mtDNA 突变)。
- 等位基因计数矩阵进一步被 mtDNA 拷贝数矩阵(每个位置每个细胞)除,生成了用于可视化的异质共生矩阵 H。
- 由于突变计数数据较为稀疏,定量异质共生水平容易受到 mtDNA 覆盖度变化的影响。
- 为了最小化覆盖度和下游分析中异质共生动态的偏差,我们对矩阵 C 进行了二值化处理,生成了矩阵 Cbin。
- 我们发现,考虑到每个单细胞中识别出的变异数量,二值化更为可靠,并提供了足够的分辨率。
- 尽管如此,定量矩阵 C 和二值化矩阵 Cbin 都被提供用于 ReDeeM-R 的下游分析。
Para
- 基于矩阵 Cbin,我们计算了细胞间的加权 Jaccard 距离。
- 利用多个供体中 mtDNA 突变频率的先验信息对 Jaccard 距离进行加权,以考虑潜在的趋同进化。
- 直观地说,加权 Jaccard 距离衡量任意两个细胞共享突变的程度——也就是说,在适当的标准化之后,共享的 mtDNA 突变越多,两个细胞的关系越密切。
- 我们首先为每个突变定义了一个先验概率,该概率优先考虑在供体中突变率较低的突变(即,不太可能是独立发生的相同突变)。
- 对于细胞 x 和 y,加权 Jaccard 距离(Dw_Jaccard)定义为
Para
- 接下来,将加权Jaccard距离输入到邻接算法中,用于使用ape和ggtree包进行系统发育树的重建和可视化(本文中始终使用clado图进行可视化,以便专注于树结构的拓扑)。
Lineage origins of haematopoietic cell types
造血细胞类型的谱系起源
Para
- 我们最初通过建模所有细胞类型中的突变分布来选择‘谱系信息性’的线粒体DNA(mtDNA)突变。
- 我们移除了随机分布的突变,这些突变可能出现在某些无偏的干细胞克隆中,因此在研究细胞类型亚克隆起源方面信息量较少。
- 具体来说,我们首先将所有细胞类型分为四大主要分化轨迹:髓样(GMP, MDP, 单核细胞),淋巴样(CLP, ProB, CD4, CD8, B, NK),巨核细胞(MK前体)和红细胞(MEP, 红细胞前体)。
- 使用二项检验测试任意两个分化轨迹之间每种mtDNA突变的频率。
- 当所有比较的P值大于0.05时,mtDNA突变被定义为随机分布。
- 我们过滤掉了所有随机分布的突变,并生成了一份谱系信息性mtDNA突变列表(图2g中使用了631个谱系信息性突变)。
- 使用这些突变,我们生成了矩阵Cbin并计算了加权Jaccard距离。
- 然后我们生成了描述基于共享突变的细胞间谱系关系的KNN图G。
- 接着我们将多组学分析中的细胞类型注释与图G整合。
- 对于任何给定的细胞(查询细胞),计算图G上KNN中每种细胞类型(目标细胞类型)的比例。
- 然后汇总并缩放每个查询细胞类型的目标细胞类型比例,如图2g和补充图5所示。
- 最后,根据邻居内的目标细胞类型比例,通过层次聚类对查询细胞类型进行分组。
HSC subpopulations and clone-to-state preferences
HSC亚群及克隆-状态偏好
Para
- 为了对HSCs进行特定研究,我们实验性地富集了CD34+CD45RA−CD90+群体,如前所述。
- 我们进一步使用半无监督方法细化HSC群体。
- 首先,我们使用Seurat71对所有细胞在WNN上进行基于社区检测的聚类。
- 其次,我们计算了每个簇的HLF基因表达水平平均值,并定义了HLF高表达(HLFhi)和HLF低表达(HLFlow)簇。
- 第三,我们同时检查了每个单细胞的HLF和CRHBP基因表达水平。
- 我们要求任何HSC细胞都高度表达HLF和CRHBP,并且归类于HLFhi簇中。
- 定义的HSCs进一步使用其他HSC特征进行检验,包括MECOM、HOPX、AVP、MLLT3、RBPMS等。
- 为了提高弱表达基因的稳健性,表达数据使用Rmagic包进行增强以供可视化。
Para
- 对于上述精细化的造血干细胞(HSCs),我们在加权最近邻网络(WNN)上进行了二次聚类以定义亚群。
- 这些亚群是使用Seurat软件在0.6分辨率下识别的。
- 亚群在基于RNA、ATAC和WNN的UMAP图上进行了可视化。
- 差异表达基因和可访问染色质是通过Seurat软件的FindMarker功能识别的。
- 差异峰的DNA结合基序是通过‘find individual motif occurrences’扫描,使用HOCOMOCOv11_full_HUMAN_mono人类转染因子基序数据库进行分析的,随后通过二项式测试跨造血干细胞亚群特异性的开放染色质峰(相关内容见补充图6)。
- 在单细胞水平上对差异基序的可视化是通过chromVar软件进行的。
Para
- 为了最佳捕捉主要造血干细胞(HSC)克隆结构,我们使用词频-逆文档频率和奇异值分解对二进制化的mtDNA变体-细胞矩阵进行了归一化和降维处理。
- 使用前30个潜在语义索引来测量欧几里得距离,该距离进一步传递给邻接算法以构建系统发育树。
- 接下来,使用之前描述的最大似然法将mtDNA突变分配到树分支上,该方法已集成在redeemR中(Add_AssignVariant函数)。
- 我们将HSC克隆群定义为包含至少50个单细胞的最小进化枝单元,其基础边缘至少有一个确信分配的突变(‘边缘’指的是系统发育树中连接两个节点的线;使用了ReDeeM-R中的Add_tree_cut函数)。
Para
- 接下来,我们检查了每个造血干细胞(HSC)克隆群在所有基于RNA和ATAC细胞状态的HSC亚群中的分布情况。
- 与背景相比,计算了给定克隆群在每个细胞状态亚群中的富集倍数,并通过超几何检验估计了P值。
- 比较了来自两个采样时间点的HSC的富集倍数和P值。
- 使用Fisher方法合并了两个时间点的P值,并使用qvalue R包计算了FDR。
- 定义HSC克隆到细胞状态偏好的截止标准如下:合并P值小于0.01且FDR小于0.05,且log2倍数变化(时间点1)大于0.25且log2倍数变化(时间点2)大于0.25。
- 完整统计数据见补充数据4。
HSC progeny clonal assignment using network propagation
使用网络传播进行HSC后裔克隆分配
Para
- 结合同一供体中HSCs的采样以及已定型和分化的后代,我们旨在利用mtDNA突变谱的相似性将后代分配到其中一个HSC克隆群。
- 简而言之,我们首先利用同一供体所有细胞的共享mtDNA突变构建了一个包容性的克隆网络。
- 接下来,每个HSC克隆群的HSC细胞作为种子,通过克隆网络传播克隆信息,直到达到稳态。
- 每个克隆群都迭代用于网络传播。
- 网络传播后,每个细胞携带的信息代表了给定HSC克隆群的分配概率,并通过比较所有克隆群的归一化概率来确定最终分配。
Para
- 由于mtDNA变体-细胞矩阵高度稀疏,确定单个细胞的任务具有挑战性。
- 我们之前的研究表明,尽管单细胞基因组学数据固有的高维性和广泛的稀疏性,单个细胞的表型相关性可以在细胞-细胞相似性图中忠实地建模,并通过网络传播算法有效识别。
- 在这里,使用类似原理,我们开发了SCAVENGE–L,它使用利用克隆邻域信息的网络传播策略,并高效地通过概率度量分配细胞。
- 我们认为,单个细胞的克隆结构可以忠实地蒸馏到一个网络中,其中每个节点代表一个细胞,每条边代表细胞间的mtDNA突变谱相似性。
- 通过定义感兴趣的细胞(即HSC克隆组),我们可以利用这个网络,结合网络拓扑结构和细胞-细胞距离,搜索高度相关的细胞(即后代)。
Para
- 我们首先生成了一个完全二值化的mtDNA变异-细胞矩阵,其中包含了来自特定捐赠者的所有干细胞、祖细胞和分化细胞。
- 我们进行了词频-逆文档频率处理,然后通过奇异值分解进行归一化和降维。
- 前30个潜在语义索引用于构建相互KNN图(mKNN)。
- 接下来,我们在mKNN图上突出显示了每个HSC克隆群,然后使用带重启的随机游走方法来发现每个HSC克隆群细胞的子代,我们称之为种子细胞。
- mKNN图上的信息可以传播,并且在稳态下网络中保留的信息可以用来衡量任何给定细胞属于HSC克隆群(种子细胞)的概率。
- 我们使用0.05的阻尼因子从每个HSC克隆群(种子)迭代进行网络传播分析。
- 最终生成了一个细胞-克隆群概率矩阵,用于衡量分配的置信度。
- 我们将0.7以上的最大概率作为截止值,以过滤掉模糊的子代(补充图7a-e)。
Para
- 由于HSCs也被纳入mKNN网络并通过网络传播进行处理,它们可以通过算法通过网络传播被分配到一个克隆组;同时,实际的HSC克隆组被用作真实值。
- 通过比较预测的HSC克隆组与真实值,我们设法在将SCAVANGE–L应用于将后代分配到HSC克隆组之前,对其鲁棒性进行了基准测试(补充图7)。
HSC clonal output and lineage biases
HSC克隆输出和谱系偏倚
Para
- 为了研究HSC克隆输出活性,我们从同一供体在两个采样时间点收集了HSC及其所有分化后代。
- 基于mtDNA突变,我们应用SCAVENGE–L将分化后代分配到每个HSC克隆。
- 接下来,我们通过计算每个HSC克隆组的后代数量来测量克隆输出水平,然后通过与HSC克隆大小(每个克隆组的HSC数量)进行标准化。
- 我们比较了两个采样时间点的克隆输出水平,并计算了Pearson相关系数。
- 为了评估不同HSC克隆对造血的贡献,我们将它们从高到低进行排名,并计算这些克隆贡献的分化后代累积比例。
Para
- 接下来,我们对每个造血干细胞(HSC)克隆计算了四种主要谱系的比例,这些谱系根据细胞状态定义:髓系(单核细胞、GMP、MDP、cDC)、红细胞系(MEP、EryP)、巨核系(MKP)和淋巴系(CD4、CD8、NK、B、ProB、CLP)。
- 谱系偏倚通过二项分布模型与两个采样时间点的所有细胞背景进行对比。
- 在两个时间点均具有一致富集倍数变化的HSC克隆被归类为偏倚克隆。
- 两个时间点的富集P值通过费舍尔方法合并,合并后的P值使用R包qvalue进行调整作为FDR。
- 富集倍数变化分别独立计算每个采样时间点。
- 最后,HSC克隆输出水平和谱系偏倚进行标准化,并计算皮尔逊相关系数以评估输出活性与谱系偏倚之间的关系。
Clonal expansion analysis in ageing
衰老中的克隆扩增分析
Para
- 首先,我们从两位年轻捐赠者(31岁的女性和26岁的男性,分别标记为young-1和young-2)和两位老年捐赠者(76岁的男性和78岁的男性,分别标记为aged-1和aged-2)中收集了BMMCs和CD34+ HSPCs。
- 使用之前描述的相同共识变异调用流程和邻接算法,我们为所有四位捐赠者重建了系统发育树。
- 克隆扩张通过两种方法进行估算:基于克隆的和基于类群的。
- 对于前者,我们首先按照上述方法识别克隆群。
- 简而言之,变异被概率性地分配到分支上,然后我们剪掉具有至少n个置信变异且克隆群大小至少为m的分支。
- 涉及的参数包括m(克隆中的最小细胞数,默认为50)、n(分支上要剪掉的最小累积变异数,默认为1)、P(变异被分配的概率,默认为0.6)和D(丢弃小于D个细胞的小克隆)。
- 我们通过累积比例比较了年轻和老年捐赠者之间克隆大小的分布。
- 为了排除定义克隆群的参数潜在偏差,我们调整了参数组合(m, n, P, D)并比较了年轻和老年捐赠者之间的克隆大小分布(扩展数据图9c)。
- 接下来,还计算了每个捐赠者的Shannon多样性指数S,以衡量年轻和老年捐赠者之间的克隆多样性。
- 给定克隆群i,sizei是该克隆的细胞数。Shannon多样性指数的计算公式为
Para
- 对于基于进化枝的方法,我们按照之前描述的方法识别了扩张进化枝,并使用Cassiopeia包中的cassiopeia.tl.compute_expansion_pvalues函数实现了这一过程(该包可在https://github.com/YosefLab/Cassiopeia获取)。
- 简而言之,我们将子克隆中包含的细胞数量与其直接的‘姐妹’细胞进行比较,并使用合并模型计算在自然选择下观察到这一现象的概率。
- P值小于0.01且至少包含5%细胞的进化枝被注释为扩张进化枝(扩展数据图9a)。
- 最后,每个供体中由扩张进化枝贡献的细胞比例被总结出来(扩展数据图9b)。
Inferring single-cell fitness
推断单细胞适应性
Data availability
Para
- 手稿中生成的所有数据已存入GEO(GSE219015)。
- 处理后的Seurat对象可在figshare上获取:https://doi.org/10.6084/m9.figshare.23290004。
- 处理后的突变调用文件可在figshare上获取:https://doi.org/10.6084/m9.figshare.24418966.v1。
- 单菌落全基因组测序数据来源于dbGaP(phs002308.v1.p1)。
- 转录因子基序数据库JASPAR2020(https://jaspar2020.genereg.net/)用于ChromVar分析。
- HOCOMOCOv.11(https://hocomoco11.autosome.org/downloads_v11)人类转录因子数据库用于‘查找单个基序出现’分析。
Code availability
Para
- ReDeeM 数据集可以通过共识变异调用命令工具 REDEEM-V (https://github.com/sankaranlab/redeemV) 和内部 R 包 REDEEM-R (https://github.com/sankaranlab/redeemR) 进行下游的系统发育和综合分析。本工作中包含的分析的可重复性代码也已提供 (https://github.com/sankaranlab/redeem_reproducibility)。