研究背景
问题:
结直肠癌(CRC)是全球第三大常见恶性肿瘤,同时也是癌症相关死亡的主要原因之一。尽管手术切除联合化疗是标准治疗方案,但约三分之一的患者会出现疾病复发。近年来,免疫检查点抑制剂和靶向治疗在特定患者亚群中展现出显著疗效,但这些疗法仅适用于少数患者,主要受限于分子异质性和复杂的肿瘤微环境。
难点:
CRC的高度分子异质性及其复杂的肿瘤微环境不仅驱动了疾病的进展,也为精准医疗带来了重大挑战。现有的基于批量测序数据的分子分类系统(如共识分子亚型CMS)虽然为研究提供了重要框架,但难以精确解析肿瘤微环境中的细胞组成和功能异质性。
相关工作:
单细胞RNA测序技术(scRNA-seq)为揭示CRC微环境中的细胞异质性提供了新的视角。然而,由于地理限制、样本量小以及不同研究间细胞注释方法的差异,现有研究仍难以全面表征CRC微环境中普遍存在的共享机制,跨研究的数据整合和比较也面临困难。
实验路线
实验设计
单细胞组学+机器学习+实验验证
使用数据:
-
TCGA数据:
- TCGA-COAD(结肠腺癌)
- TCGA-READ(直肠腺癌)
数据来源:https://xenabrowser.net/datapages/
-
单细胞RNA测序数据:
- GSE161277
- GSE200997
- GSE221575
- GSE231559
结果解读
综合分析揭示了结直肠癌微环境中的细胞类型组成和功能重塑
揭示了肿瘤与正常组织间细胞组成及基因表达差异,特别指出上皮细胞和成纤维细胞在肿瘤进展中的重要作用,以及髓系细胞、内皮细胞参与炎症反应和血管新生的过程。
本文作者利用GEO数据库中的四个结直肠癌单细胞数据集,其中包括27个原发性结直肠癌样本与14个正常对照样本。在进行严格的质控处理后(排除低质量及潜在死细胞,确保每个细胞至少表达400个基因且线粒体基因比例不超过20%),并通过R包DoubletFinder去除双细胞污染,最终保留了88,212个高质量细胞用于后续分析。为减少批次效应的影响,采用了Harmony算法对数据进行了校正,从而识别出32个不同的细胞亚群(见图1A)。通过绘制这些亚群之间的相关性热图来验证其分类准确性(见图1B),并结合高质量标记基因的表达情况,将上述32个亚群归纳为8大类细胞群体。此外,还展示了每一大类中前50个高变基因的表达模式(见图1C和1D)。
根据是否患有癌症将样本分为两组,并据此绘制了各类细胞在不同分组间的相对丰度热图(见图1E)。结果显示,在肿瘤样本中上皮细胞的比例显著高于非肿瘤组别;采用PHATE降维技术进一步证实了这一观察结果。同时,比较了肿瘤组与正常组间各种细胞类型的组成差异(见图1G),发现肿瘤样本内上皮细胞及髓系细胞所占比例较正常组织更高。
为了深入探究两类样本之间细胞亚群的具体差异,研究者还鉴定了两者间差异表达基因(DEGs),发现这些DEGs主要富集于上皮细胞和成纤维细胞亚群中,暗示这两个亚群可能在肿瘤进展过程中扮演重要角色。最后,通过对上调基因进行GO功能注释分析发现:髓系细胞显著富集于细胞因子生成及凋亡信号传导途径;而NF-κB信号转导和细胞因子产生相关通路则是在多种细胞类型中被激活;值得注意的是,氧化应激反应和缺氧适应机制在内皮细胞及成纤维细胞中尤为突出,表明它们积极参与到了促进血管新生的相关生物过程之中,这也反映了肿瘤微环境内部复杂的细胞间相互作用网络。
多维分析揭示了结直肠癌中转录组重塑和细胞类型的功能变化
研究通过Wilcoxon秩和检验发现,趋化因子CCL5在免疫细胞中下调而CCL20上调,提示肿瘤微环境从抗肿瘤转为促肿瘤生长。COL4A1/COL4A2表达增加反映了细胞外基质重塑。多层次分析显示肿瘤样本中上皮、内皮及髓系细胞比例上升,反映肿瘤膨胀与新血管生成。Augur算法揭示内皮、肥大、成纤维及上皮细胞转录组显著变化,GSEA分析显示RNA加工、翻译及外泌体相关通路激活,表明癌细胞加强合成代谢并重塑微环境,为潜在转移创造条件。
采用Wilcoxon秩和检验对不同细胞类型中的差异基因进行了分析(见图A)。结果显示,趋化因子CCL5在免疫细胞(包括T细胞和髓系细胞)中显著下调,而CCL20的表达则呈现上调趋势。这一发现提示了肿瘤微环境可能从抗肿瘤状态转变为促进肿瘤生长的状态。此外,COL4A1/COL4A2在多种细胞类型中的表达量增加,特别是在内皮细胞和成纤维细胞中更为明显,这反映了细胞外基质重塑的现象。
为进一步理解疾病状态下细胞组成的变化,采用了多层次分析策略来评估细胞间差异群体丰度(Differential Abundance, DA)。基于K-近邻算法的结果表明,在肿瘤样本中观察到上皮细胞、内皮细胞及髓系细胞比例显著上升(见图B,C),这暗示着肿瘤实质体积的膨胀以及活跃的新血管生成过程。
通过应用基于随机森林模型的Augur算法计算跨细胞类型的转录扰动程度后,发现内皮细胞、肥大细胞、成纤维细胞以及上皮细胞经历了最为显著的转录组变化(见图D)。富集分析揭示,在结直肠癌(CRC)样本里,上皮细胞占据了主导地位,并且其转录谱发生了重要改变:上调基因主要集中在蛋白质合成与核糖体生物合成途径上,这体现了肿瘤细胞快速增殖的需求;相反地,与细胞极性和结构相关的基因则被下调,暗示着细胞表型的转变。GSEA分析进一步显示RNA加工、翻译及外泌体相关通路的激活,表明癌细胞通过加强合成代谢以应对压力,并借助囊泡介导的方式重新塑造局部微环境,从而为潜在转移创造了条件。综上所述,这些系统性变化不仅加深了对于CRC发病机制的理解,也为开发新型靶向治疗方案提供了宝贵的线索(图2E-H)。
上皮细胞异质性和拷贝数变异( CNV )驱动的CRC恶性进展
对CRC(结直肠癌)中的上皮细胞进行了详细分析,因为它们是恶性肿瘤的主要来源,并且在丰度和转录水平上有显著变化。通过重新聚类,识别出8个不同的亚群,包括干细胞/祖细胞(SPCs)、分泌型过渡扩增细胞(SecTA)、吸收型肠上皮细胞(AEs)、杯状细胞(GCs)、循环迁移细胞(CCM)、神经支持细胞(NSIT放大细胞,CycTA)、浸润免疫样细胞(IIIC)、肠内分泌细胞(EECs)和BEST4+肠上皮细胞(BEST4-ECs)。每个亚群的注释基于特异性高表达基因得到验证。
与正常组织相比,肿瘤组织中SPC、SecTA和CycTA的丰度增加,而AEs、EECs和BEST4-ECs减少,表明干细胞特性及炎症反应增强,同时正常的吸收和内分泌功能受损。进一步分析显示,EEC和SecTA亚组在转录水平上受到最大影响。差异表达基因的功能富集揭示了这些变化可能影响细胞骨架重组、蛋白质合成等关键过程。
拷贝数变异(CNV)分析揭示了不同上皮细胞亚型间的恶性程度差异,其中IIIC显示出最低的CNV分数。随着CNV水平的增加,SPC、CycTA和EEC的数量也逐渐上升,这与更高的恶性程度相关联。高CNV还激活了涉及蛋白质磷酸化、转录调控等多个生物学过程。此外,在高CNV组中观察到MALAT1、ELF3和CLDN4等基因上调,提示EMT(上皮间质转化)和细胞连接模式的变化可能是癌症进展的关键因素。
时间序列分析揭示了CRC上皮细胞的动态转化轨迹。
使用Monocle2分析了正常和肿瘤上皮细胞的分化状态,鉴定了五种不同的状态。为了验证这些结果,使用了Slingshot和PAGA进行交叉验证。通过比例分析发现,State1中约一半的细胞是IIICs,这与CNV分析中观察到的结果一致。AEs和SPCs分别富集在轨迹的两个端点,而肿瘤细胞在整个轨迹中的分布保持一致(图4C, D, F)。进一步分析显示,IIICs集中在起始点,EECs主要出现在S5方向的终点,BEST4-ECs在两个终点均有显著富集(图4E),表明不同细胞类型在肿瘤进展过程中经历了不同的分化路径。
为了探索细胞状态转换期间的分子机制,通过BEAM分析研究了节点1和节点2前后基因表达的变化。在节点1处,簇3和簇2分别代表向State5和State4方向发育过程中上调的基因集合。簇3富含与细胞应激反应相关的基因,如PPP1R15A和GADD45B,后者与结直肠癌的发展及预后密切相关。簇2则富含与细胞骨架重组及代谢过程相关的因子,例如ARPC3和CA2,其中CA2参与调控细胞pH值及离子平衡,其表达变化表明肿瘤微环境发生了显著改变。在节点2周围的分析中,观察到大量免疫相关基因的富集,如IL32和CEACAM7(图S4B, C),暗示免疫调节可能在早期细胞状态转换中扮演重要角色,并参与肿瘤微环境的重塑。
CRC微环境中免疫细胞异质性与功能重塑
髓系细胞活化:IL1RN, CXCL8, CCL20 趋化因子:CCL3 and SPP1
本研究基于肿瘤组中免疫反应和微环境的显著变化,对淋巴细胞和髓系细胞进行了深入分析。通过无监督聚类,将淋巴细胞分为10个亚群,并根据特异性高表达基因进行注释(图5A、B,图S5A-C)。尽管肿瘤组和正常组的淋巴细胞亚型分布模式相似,但肿瘤组中nCD4T细胞、Treg细胞和浆细胞比例增加,而B细胞和NK细胞减少,表明存在增强的免疫抑制和体液免疫重塑(图5C、D)。
使用MSigDB特征基因集评估了各淋巴细胞亚群的通路激活情况。结果显示,Treg细胞显著激活IL2_STAT5_SIGNALING和IL6_JAK_STAT3_SIGNALING通路,sT细胞和aT/NK细胞则激活TNFα_SIGNALING_VIA_NFKB通路,nCD4T和Treg细胞高表达INFLAMMATORY_RESPONSE通路(图5E)。Augur框架分析显示,sT细胞在肿瘤组中改变最显著,其抗原刺激和细胞应激相关基因显著上调,提示该亚群处于多重应激状态(图5F、G)。
对于髓系细胞,鉴定出9个亚群并分析了其功能标志物(图5H、I,图S5D-F)。虽然多数髓系细胞亚群在两组间分布相对平衡,但ActMono在肿瘤组显著上调(图5J、K)。伪时间分析表明,ActMono是髓系细胞分化的终末节点,可能是肿瘤反应后期的关键亚群(图S5G、H)。该亚群表达多种髓系细胞激活标志物,证实了其在肿瘤微环境中的活化状态(图5L)。
肿瘤组中包括半乳糖凝集素在内的多种免疫通讯的激活
在肿瘤免疫微环境中,细胞间通讯对于疾病进展具有至关重要的作用。利用CellChat工具分析了疾病进程中细胞通讯的变化情况。结果显示,在肿瘤样本中观察到的细胞间通讯数量及其信号强度均显著高于正常对照组(图A所示)。进一步研究表明,肿瘤样本表现出更为活跃的细胞间通讯特性以及独特的信号传导模式,其中nCD4T细胞作为主要的信息交流中心(见图6B),而上皮细胞亚群(特别是SecTA和SPCs)在肿瘤条件下经历了显著的功能性重构,展现出增强的信号发射能力。
通过深入探究,鉴定出多个仅在肿瘤条件下被激活的关键信号通路,包括调控免疫反应的CD40途径、促进基质重排的SPP1途径,以及参与血管新生与免疫抑制过程的VEGF/TGFβ轴(如图6C所示)。值得注意的是,SecTA通过一个复杂的信号网络(涵盖生长因子、趋化因子、免疫调节及代谢调控信号)参与到微环境重塑过程中(参见图6D),而galectin信号途径则在构建免疫抑制性微环境中扮演着核心角色,其中LGALS9-CD45/CD44是最为关键的受体-配体组合(见图6E,F)。
此外,SecTA与免疫细胞之间通过MIF-(CD74+CXCR4/CD44)网络形成了特定的相互作用关系(见图6H),同时从免疫细胞传递至SecTA的PPIA-BSG信号也显示出独特的交互特点(见补充材料图S6D)。以上发现不仅为理解肿瘤微环境中上皮细胞与免疫细胞之间复杂互作提供了宝贵的分子层面见解,也为未来开发针对这些特异性途径进行干预的新策略指明了潜在方向。
7个SecTA亚组相关特征可预测患者生存
为了评估与结直肠癌(CRC)预后相关的分子特征,整合了458个TCGA-COAD和READ数据集及其预后信息,通过多维基因表达分析构建了预测模型。首先,通过对高拷贝变异组差异表达基因与肿瘤-正常上皮细胞DEGs中的460个SecTA特异性DEGs进行交集分析,识别出282个候选基因。采用留一交叉验证(LOOCV)框架,构建并评估了101,463个预测模型。将数据集按6:44比例随机分为训练集和验证集,并用C指数评估模型性能。
结果显示,尽管StepCox[正向]模型获得最高平均C指数(0.721),但需要80个特征。相比之下,仅需25个特征的StepCox[两者]+Enet[α=0.7]模型的平均C指数为0.687,更具实用性。因此,选择了StepCox[两者]+Enet[α=0.7]策略来构建CRC风险评分(CRS)系统。该模型在训练集和验证集中均表现出良好的预测性能,低风险组的总体生存期显著延长(p<0.0001)。在训练集中,CRS对1年、3年和5年总生存期的AUC分别为0.74、0.78和0.76;在验证集中,3年和5年的AUC分别为0.64和0.66。合并分析进一步证实了CRS的预测能力。
为了探究CRS与免疫微环境的关系,使用CIBERSORT算法分析了高风险和低风险组的免疫细胞浸润特征。结果显示,高风险组CD8+ T细胞和M2型巨噬细胞浸润增加,而静息CD4+记忆T细胞减少,表明存在更强的免疫抑制微环境。这些发现与单细胞分析结果一致。
TUBB 通过调控细胞外基质重塑参与CRC进展
在炎性反应综合征相关的25个基因中(上面内容中筛选而来),TUBB引起了我们的特别关注。尽管已有研究表明TUBB在乳腺癌和肺癌中作为预后标志物或致癌因子的作用,但其在结直肠癌中的功能尚未明确。
首先,TUBB在多数肿瘤上皮细胞中表达水平升高,特别是在EEC和IIICs中更为显著(图8A),这表明TUBB可能与结直肠癌的恶性程度相关。进一步分析显示,TUBB的表达并不局限于特定的细胞类型(图8B, 图S7A),暗示它可能反映了一种特定的细胞状态而非特定亚型。
通过比较TUBB阳性和阴性细胞之间的基因表达差异及GSEA富集分析,结果发现TUBB阳性细胞中与细胞质翻译、细胞呼吸等过程相关的通路被上调(图8C),这些特征符合促癌表型,提示TUBB可能具有致癌作用。
使用CellChat工具分析免疫细胞与TUBB阳性和阴性上皮细胞间的相互作用,揭示出TUBB阳性细胞能接收COLLAGEN、LAMININ和VEGF信号,并且GALECTIN和VEGF信号的激活指示了它们具有免疫抑制及促进血管生成的能力,这对肿瘤进展和转移可能是有利的(图8D-F, 图S7B-C)。此外,TUBB阳性细胞还参与了LGALS9-P4HB/CD44/CD45等受体-配体对介导的基质重塑过程(图8G, 图S7D-E),这可能通过改变组织硬度等方式影响肿瘤的发展。
总结
研究发现,sT细胞是肿瘤与正常组织间受影响最显著的淋巴细胞亚群,表现出高度代谢活跃和应激状态。在髓系细胞中,活化单核细胞(ActMono)在肿瘤组织中富集,成为主要分化终点之一,显示肿瘤微环境对免疫细胞命运有重编程作用。ActMono通过激活多种代谢通路维持其激活状态,并调节T细胞功能,连接先天性和适应性免疫响应。这项研究整合了多个单细胞数据集,分析了结直肠癌(CRC)中肿瘤细胞的功能特性及其对免疫微环境的影响,特别是SecTA亚群的作用。此外,还首次结合生物信息学与临床样本分析了TUBB在CRC进展中的作用,确认其为一个重大风险因素,并建立了一个具有卓越预后性能的CRS系统。。
尽管文章单细胞分析和识别关键细胞亚群(如SecTA和ActMono)方面取得了全面进展,但研究仍存在一些局限性:
- 依赖于计算模拟:虽然我们已经通过患者样本和体外实验验证了TUBB的表达与功能,但其调控的下游信号通路及与免疫调节的具体机制仍需进一步实验验证。未来的研究应采用体内模型和扰动实验来揭示这些相互作用。
- 技术限制:单细胞RNA测序存在诸如丢失事件和批次效应等技术问题,这可能影响基因表达量化的准确性。尽管已采取校正措施,但仍可能存在偏差。
- 预后模型的适用性:循环肿瘤细胞风险评分(CRS)预后模型在内部验证中表现良好,但需要使用独立的结直肠癌(CRC)队列进行外部验证,并在其他公开数据集上交叉验证,以确保其普遍适用性和减少过拟合风险。
- 样本量有限:本研究整合了四个数据集中的41个样本,但样本量仍然较小。未来需要更大、更多样化的患者队列和多组学数据来验证并扩展我们的发现,探索SecTA、ActMono和TUBB作为治疗靶标或生物标志物的潜力。
这个文章的整体思路还是值得学习的。
LOOCV框架简单使用
https://github.com/biocore/tcga/blob/master/r_scripts/Plasma-age-regression-loocv.R
https://machinelearningmastery.com/loocv-for-evaluating-machine-learning-algorithms/
https://github.com/lrq828/Machine-learning-loocv
https://github.com/JRigh/LOOCV-Cross-validation-for-regression-in-R-and-Python