Cell | 人类实体瘤临床细胞状态和生态系统图谱
原创 huacishu 图灵基因 今天
收录于话题#前沿生物大数据分析
撰文:huacishu
IF=41.584
推荐度:⭐⭐⭐⭐⭐
亮点:
1、在这项研究中,作者描述了EcoTyper,一个从基因表达数据解码细胞状态和多细胞群落的集成系统。它可以通过直接从完整组织活检的RNA图谱输入细胞异质性,避免了物理细胞分离引起的畸变;不需要抗体或表型标记的预选,适用于新鲜、冷冻和固定标本;EcoTyper还可以准确解析多种细胞类型的转录状态,将它们组装成多细胞群落,量化它们的相对组成;
2、尽管在这项研究中EcoTyper被应用于16种癌,但它可以推广到任何组织类型和疾病状态,并且可以获得合适的表达数据。
近日斯坦福大学Aaron Newman教授团队在国际知名期刊Cell在线发表题为“Atlas of clinically distinct cell states and ecosystems across human solid tumors”的研究论文。确定细胞如何随着其局部信号环境而变化并形成不同的细胞群落对于理解发育、衰老和癌症等多种过程至关重要。本研究作者介绍了EcoTyper,这是一个机器学习框架,用于从大量单细胞和空间解析的基因表达数据中识别和验证细胞状态和多细胞群落。当应用于16种人类癌症的12个主要细胞谱系时,EcoTyper鉴定出69种被转录定义的细胞状态。大多数状态是肿瘤组织特有的,普遍存在于各种肿瘤类型中。这项研究阐明了人类癌细胞组织的基本单位,并为大规模分析组织中的细胞生态系统提供了框架。
研究设计了EcoTyper作为一个广泛适用的框架,用于从原始组织标本高通量鉴定细胞状态和多细胞群落。它包括三个关键步骤:从大量组织转录组中获得细胞类型特异性基因表达谱,识别和定量转录定义的细胞状态,以及将细胞状态分配到多细胞群落(图1)。接下来设计了一个队列,由16种人类癌症组成,包括5946个肿瘤和529个相邻的正常转录组,由癌症基因组图谱(TCGA)分析(图1)。选择这些数据集是为了最大限度地提高标本处理的一致性以及每个生物样本的基因组数据和临床随访的可用性。对这些数据进行统一处理和标准化后,EcoTyper生成了一个包含77700个数字表达谱的矩阵,每个被评估的细胞类型和患者样本各一个。
在初始质量控制过滤(STAR方法)之后,EcoTyper产生了71种离散的细胞状态,每个细胞类型的状态从3到9个不等(图2A、2B)。大多数状态在癌症中普遍存在,并在恶性组织中显著富集。为了评估EcoTyper定义的71种细胞状态的保真度,作者询问了约200000个单细胞转录组中每种状态的存在情况,这些转录组涵盖四种人类癌症:乳腺癌(BRCA)、结直肠癌(CRC)、头颈部鳞状细胞癌(HNSCC)和非小细胞肺癌。总之,使用参考指导注释结合排列测试,94%的细胞状态(71个中的67个)在scRNA序列数据中可以显著恢复。无论平台、单元类型或数据集如何,恢复率都很高,这突出了结果的稳定性。此外,在所有七个scRNA-seq肿瘤图谱中观察到显著可重复的标记基因表达(图2C)。作者还测试了特定生物组(如正常组织)中富集的状态是否在单细胞水平上重现。事实上,在将单细胞转录组映射到EcoTyper状态后,观察到邻近正常组织、腺癌或鳞状细胞癌中富集状态的显著一致性(图2D)。此外,与其他用于监督scRNA序列分类的参考引导注释工具相比,EcoTyper表现出了优越的性能。重要的是,近三分之一的生态型状态似乎是新的,或者之前未通过人类癌的scRNA-seq调查确定。例如,在M2样巨噬细胞中,作者确定了一个AEBP1+群体(状态6),该群体与泡沫状巨噬细胞具有显著的相似性,泡沫状巨噬细胞是一种富含脂质的表型,通常与动脉粥样硬化斑块相关,但其在癌症中的相关性尚不清楚。为了证实这种状态,根据从人结直肠癌肿瘤活组织切片中分离的基质细胞进行了大量RNA-seq检测,在EcoTyper鉴定的九种单核细胞/巨噬细胞状态中,状态6在富含泡沫巨噬细胞的基质中富集,这也支持了研究的结果(图2E)。
在队列调查的16种上皮癌类型中,大多数细胞状态(69种中的39种)与总生存率显著相关(图3A),49%(n=34)在结合分期、年龄和性别的多变量分析中显著相关。将几乎所有评估的细胞类型分为有利和不利状态,突出了它们的生物学和临床异质性(图3A)。例如,在先前的研究中发现,注释为M1(状态3)和M2(状态4-7)的巨噬细胞亚群分别与更长和更短的生存时间相关(图3A)。令人惊讶的是,在M2样状态中,AEBP1+泡沫巨噬细胞是不良生存的前五个决定因素之一,这表明泡沫细胞作为癌症的免疫治疗靶点具有广泛的相关性(图3A)。值得注意的是,TCGA和PRECG之间的生存关联高度一致(图3B),证实了作者的发现,并强调了EcoTyper对新数据集的可扩展性。作者还观察到个别肿瘤类型的高度一致性,如结肠癌、卵巢癌和胃癌,其中M1和M2泡沫样巨噬细胞分别预测更长和更短的生存时间(图3C)。
肿瘤是由空间和时间连接的细胞状态组成的复杂生态系统。为了确定EcoTyper是否能够重建多细胞生态系统,作者设计了一种基于共生和相互回避模式的数据驱动的细胞状态聚类方法(STAR方法)。通过将该方法应用于发现队列中的肿瘤样本,研究确定了十个显著紧密结合的细胞群落,称之为“癌症生态型”(CEs)(图4A、4B)。CEs的范围为每个群体3到9个不同的细胞状态(图4A和4B),独立于聚类方法得到了稳健的恢复,在人类癌症中普遍存在(图4A),并且与最近描述的TCGA免疫亚型高度不同。虽然几乎每个肿瘤样本都有一个显性CE(图4A),但大多数肿瘤由多个CE组成,突出了肿瘤组织成分的模块化。鉴于这些结果,接下来询问在单细胞数据中是否可以检测到这十种CEs。使用上述scRNA-seq,其中包括约200000个单细胞转录组,包括76个肿瘤和21个来自四种癌症的正常标本,将单个细胞分配到生态型状态(图4C)。然后,确定每个肿瘤/正常样本中每个状态的丰度分数,并随后将细胞状态分组到EcoTyper定义的相同CE类别中(图4C-4E)。总的来说,80%的CEs在scRNA-seq数据中显著可检测到(p<0.05)。此外,90%在p<0.06时可检测到(图4D)。
在确定了癌症中十种主要的多细胞生态系统之后,接下来探讨了它们的细胞、基因组和临床特征(图5A)。在发现队列中,8个CE在单变量模型中具有显著的预后,5个CE在对分期、年龄和性别进行多变量调整后仍然具有显著性(图5A)。值得注意的是,两种CEs在肿瘤和邻近正常组织中出现的频率相似,但在健康组织中消失(CE4、CE10),这反映了潜在的场效应。除CE6外,其他主要针对肿瘤组织(图5B)。为此,收集了571例晚期转移性疾病患者在接受抗PDL1(尿路上皮癌)、抗PD1(黑色素瘤)或抗CTLA4(黑色素瘤)单药治疗前的肿瘤表达数据。为了量化疗效,评估了与总生存率的持续相关性和与免疫治疗反应的二元相关性。以IFN-g信号为特征的CE9在预测不同治疗类型和结果指标的优越结果方面优于其他CE(图5C)。还将CE谱分析与112个候选生物标记物进行了比较,其中包括69个由EcoTyper定量的细胞状态、25个由CIBERSORTx计数的群体、肿瘤突变负荷(TMB)和2个已发表的ICI反应。令人惊讶的是,CE9丰度超过了所有其他指标,包括那些经过培训预测ICI反应的指标(图5C)。这些数据表明,即使在没有优化的情况下,多细胞群落也可以捕获具有较高预测价值的生物信号。
接下来,作者试图确定癌生态型是否显示出不同的空间组织模式。为此,作者主要关注CE9和CE10,这两个促炎细胞群落具有典型的T细胞状态和良好的总体存活率,但在其他方面基因组和细胞特征不同(图5)。CE9-T细胞状态表达免疫调节基因,包括衰竭标记物,与CE9与ICI反应的相关性一致。相反,CE10-T细胞表达中枢记忆细胞的标记物(图6A)。通过EcoTyper,做作者发现CE9-T细胞与六种细胞状态强烈共存,包括类似M1巨噬细胞、成熟免疫原性树突状细胞和活化的B细胞。相反,CE10-T细胞与五种细胞状态同时出现,包括与促炎症单核细胞、cDC1树突状细胞和原始/静息B细胞一致的细胞状态(图4B和6A)。为了检查CE特异性表型是否在空间上不同,首先对GZMB和GZMK进行免疫荧光(IF)染色(图6B),这两种细胞分别标记CE9和CE10-T细胞(图6A)。在癌症中,已经观察到GZMB和GZMK分别区分激活效应器记忆T细胞和过渡效应器记忆T细胞。将EcoTyper应用于非小细胞肺癌患者的23个肿瘤转录组,并选择了四个具有不同CE9和CE10组成的标本。这些标本的染色证实了EcoTyper的预测。此外,虽然GZMB+T细胞定位于肿瘤核心,与慢性抗原刺激和T细胞耗竭之间的联系相一致,但GZMK+T细胞基本上被排除在外,而不是定位于外周(图6B)。为了将分析扩展到T细胞之外,进一步将荧光成像应用于载脂蛋白E+/CD68+和CCR2+/CD68+细胞,它们分别标记巨噬细胞/单核细胞系中的CE9-和CE10富集状态(图6A)。利用上述分析中的肿瘤标本,证实了免疫荧光测定的相对细胞状态丰度与EcoTyper测定的相对细胞状态丰度一致。如对T细胞所观察到的,APOE+/CD68+细胞定位于肿瘤核心,而CCR2+/CD68+细胞定位于肿瘤外周(图6B)。此外,生态型与肿瘤细胞之间的距离存在高度显著的空间差异(图6C),这一发现可扩展到黑色素瘤标本(图6C)。为了确定其他细胞类型和癌症是否显示CE特异性共定位模式,接下来探索了通过空间转录组学分析的乳腺癌、结直肠癌、卵巢癌和黑色素瘤样本中的细胞状态相关性(图6D)。结果发现无论发育谱系或癌症类型如何,细胞状态通常以CE特异性方式共定位(图6E)。此外,在从33名结果已知的受试者收集的肺鳞状细胞癌癌前病变中,较高的CE10相对水平与自发消退显著相关,而较高的CE9相对水平则预测进展为浸润性癌(图6F)。这些数据进一步验证了作者的方法,将CE动力学与早期肺癌发展联系起来,并提供了一个平台来系统地研究肿瘤细胞生态系统的诊断和治疗潜力。
总之,该研究展示了如何从大量组织转录组中分析细胞状态和多细胞群落,在独立于平台的表达数据集中恢复,与免疫治疗反应相关,并跨空间和发育时间进行追踪。该方法是准确的,是对现有单细胞分析的补充,并且在产生可实验验证的假设方面具有重大潜力。鉴于EcoTyper的独特功能,作者预计EcoTyper将在健康和疾病的预防和治疗中发挥重要的作用。
教授介绍
Aaron Newman教授的团队结合计算和实验技术来研究细胞组织,重点是确定肿瘤细胞亚群的表型多样性和临床意义。其中特别感兴趣的是开发创新的数据科学工具,以阐明肿瘤发生、进展和治疗反应的细胞层次结构和基质成分。并且开发了新的算法,从临床生物样本的基因组图谱中解析细胞状态和多细胞群落、肿瘤发育层次和单细胞空间关系。并且Aaron Newman教授以通讯作者在国际权威期刊Cell、Science、Nature biotechnology等杂志上发表论文多篇。
参考文献
Luca BA, Steen CB, Matusiak M, et al. Atlas of clinically distinct cellstates and ecosystems across human solid tumors. Cell.2021;S0092-8674(21)01061-8. doi:10.1016/j.cell.2021.09.014