影响因子:6.1
研究概述:肺腺癌(LUAD)是原发性肺癌最普遍的组织学亚型,其治疗效果仍然不足,准确的预后评估构成了重大挑战。本研究试图通过综合多组学方法阐明 LUAD 中线粒体相关基因的预后意义,旨在开发个性化的治疗策略。作者首先将降维和聚类技术应用于 LUAD 单细胞数据集,重点关注成纤维细胞、上皮细胞和 T 细胞的亚分类,随后使用 TCGA-LUAD 数据鉴定线粒体相关的预后基因,并通过共有聚类将 LUAD 病例分层为不同的分子亚型,从而可以探索基因表达谱和跨亚型的临床特征分布。通过利用一组机器学习算法,作者开发了一个基于线粒体相关基因的人工智能衍生预后特征(AIDPS)模型,并在多个独立数据集中验证了其预后准确性。此外,作者对肿瘤突变负荷(TMB)、免疫微环境特征和全基因组关联研究(GWAS)数据进行了全面分析,为线粒体相关基因在 LUAD 发病机制中的机制作用提供了更多见解。这项研究不仅为改善 LUAD 的预后评估提供了一种新方法,还为个性化治疗干预的开发奠定了坚实的基础。
图形摘要如下:
研究结果:
LUAD 单细胞表达图谱
在对 GSE131907 数据集中的单细胞数据进行降维和聚类分析后,确定了 31 个不同的细胞簇(图 1A-C),并进一步将簇注释为八种不同的细胞类型:成纤维细胞、内皮细胞、上皮细胞、T 细胞、B 细胞、髓系细胞、肥大细胞和 NK 细胞(图 1D,E)。在正常样本和肿瘤样本之间观察到细胞类型组成的显著差异,肿瘤组织显示 T 细胞和 B 细胞的比例较高,而正常组织包含相对较高比例的内皮细胞、NK 细胞和髓样细胞(图 1F-G)。这些观察结果通过条形图和箱形图进一步说明,提供了细胞类型分布的全面可视化。
上皮细胞亚群细分
随后,作者分离了上皮细胞以进行独立的降维和聚类分析,共得到24簇(图 2A-B),发现簇 7、8 和 12 主要由正常上皮细胞组成,而其余簇富含肿瘤细胞(图 2C-D)。在热图中,聚类 16、21、20、10、18 和 22 聚集在一起,表明功能相似,因此统一为 S2,聚类 1 、13 和 23 被归为 S3,其余簇被指定为 S1,从而产生三个亚组。上皮细胞的细胞轨迹分析揭示了不同亚组细胞轨迹之间的相关性,State1 (正常细胞) 是肿瘤分化的起点,向 State5 或 State6 分化,代表两种肿瘤类型(图 2E-F)。肿瘤样本与正常样本之间的比较显示,肿瘤来源的轨迹包含更多的上皮细胞,分布在所有六种状态,而正常样本中的大多数细胞是正常细胞,肿瘤细胞富含状态5(图 2G),图2H展示了 100 个在伪时间上表现出表达变化的基因(图 2H)。转录因子分析发现 S1 中 RXRB、 TCF7L1、 RARB、 ZNF197 和 SP4 富集,S2 中 FOXJ2、 CTCF、 KLF3、 NFKB2和 TCF7L2,以及 S3 中的 NFIC、SNAI1、HNF4G、HFYA 和 ZEB2(图2I)。此外,对每个亚组和州分别进行 CNV 分析,结果使用箱形图表示。与 S1 和 S3 相比,S2 表现出更高的 CNV 评分,其中 S3 的 CNV 评分最低(图 2J-K)。
作者观察到两个变量之间存在显著的正相关(R=0.78,p<0.05,图 2L),根据 GSEA 的结果,S1 与 ESTROGEN_ RESPONSE_LATE 和 HYPOXIA 功能通路相关(图 2M),而 S2 与 APICAL_JUNCTIO、EPITHELIAL_MESENCHYMAL_TRANSITION、ESTROGEN_RESPONSE_LATE、HYPOXIA、KRAS_ SIGNALING_DN、P53_PATHWAY 和 TNFA_SIGNALING_VIA_NFKB 通路相关(图 2N)。
T细胞与成纤维细胞亚群细分
t-SNE 图揭示了 14 个不同的T细胞簇,大多数来源于肿瘤样本(图 3A-B),确定了三种 T 细胞亚型:CD4+NKT 样细胞、记忆 CD4+T 细胞和幼稚 CD4+T 细胞(图 3C)。然后,作者对这些 T 细胞亚型进行了转录因子活性分析,热图显示记忆 CD4+T 细胞富集了 YY1 和 RUNX1,CD4+NKT 样细胞富集了 JUND 和 SOX6,幼稚 CD4+T 细胞富集了 NR1I2 和 RXRB(Fig. 3D)。此外,作者评估了肿瘤和正常样本中 T 细胞的驻留、细胞毒性、耗竭和共刺激特征的表型评分。据观察,与肿瘤组织相比,来自正常组织的 T 细胞的驻留评分和细胞毒性评分显着升高,而来自肿瘤样本的 T 细胞的耗竭评分和共刺激评分显着升高(图 3E-H)。
随后作者分离成纤维细胞鉴定出10 个簇,其中大多数细胞来源于肿瘤样本(图 3I-J),分为3种类型的癌症相关成纤维细胞(CAF)。cluster5,6被鉴定为肌成纤维细胞 CAFs (myoCAFs),而其他簇表达炎症表型,其中 cluster0、7、8、9 细胞来源于正常样本,称为 iNAFs,cluster1,2,3,4 属于肿瘤细胞,命名为 iCAFs(图 3K)。肌成纤维细胞标志物在 myoCAFs 中上调,包括收缩蛋白 (TAGLN、MYLK、MYL9) 和α平滑肌肌动蛋白 (αSMA,也称为 ACTA2),而 CFD、 DCN和 MFAP5 等炎症表型标志物在 iNAFs 和 iCAFs 中上调(图 3L)。转录因子富集分析揭示了三种类型 CAF 中转录因子的富集模式,其中 SATB1、TEAD4、HOXB7 富集于 iCAFs,ZHX2、POU4F2、SNAI1 富集于 iNAFs,FOXK1、NCOA1、RXRB 富集于 myoCAFs(图 3M)。
线粒体相关预后基因集的获取和一致性聚类分析
作者首先对 2,030 个线粒体相关基因进行了单变量 Cox 回归分析,确定了 220 个具有显著预后价值的基因(图 4A)。基于这 220 个基因的表达谱,对 TCGA-LUAD 数据集进行了一致性聚类分析,在 k=2 时实现了最佳聚类解决方案,从而产生了两个不同的聚类 (C1 和 C2)(图 4B-C)。Kaplan-Meier 生存分析显示,与 C1 组患者相比,C2 组患者的总生存期明显差(图 4D)。对线粒体相关基因表达热图的检查表明,虽然少数基因在 C1 中表达较高,但大多数基因在 C2 中表达较高(图 4E)。使用卡方检验将聚类结果与临床参数(包括年龄、M 分期、N 分期、T 分期、总体分期和生存状态)进行整合,显示除年龄外,两个聚类之间临床特征分布存在显著差异(图 4FK)。对来自两个簇的标记基因进行的基因集富集分析(GSEA)显示,C1 表现出 G2M 检查点、蛋白质分泌、活性氧(ROS)通路和未折叠蛋白质反应等通路的下调,而 C2 表现出 G2M 检查点、E2F 靶点、有丝分裂纺锤体和精子发生等通路的上调(图 4L-M)。
通过机器学习集成方法构建的预后风险模型
在 TCGA-LUAD 数据集中,使用 LOOCV 框架拟合了 101 个预测模型,然后在 11 个验证数据集中计算每个模型的 C 指数,最佳模型 Enet[a=0.2] 具有最高的平均 C 指数 (0.655),在所有验证数据集中都表现出优异的性能(图 5A)。利用最佳模型,根据预后基因的表达水平计算每位患者的风险评分,并使用临界值将样本分为高危组和低危组。在 TCGA-LUAD 数据集和其余 11 个验证数据集中,与低风险组患者相比,高危组患者的总生存期(OS)明显较差(图 5B-M),在结合所有样本的元队列中观察到类似的趋势(图 5N)。
AIDPS 模型的评估
这部分作者采用ROC分析来评估AIDPS 在 12 个数据集和结合所有样本的元队列中的预测性能,突出了 AIDPS 的强大预测能力(图 6A)。一致性指数 (C-index) 的误差条形图(图 6B)显示了 12 个数据集的 C 指数值及其 95% 置信区间,其中大多数数据集超过 0.6,进一步证实了 AIDPS 在独立队列中的稳定性和可靠性。此外,如 C 指数误差条形图(图 6C-N)所示,AIDPS 与传统临床特征的预后预测比较表明,在 TCGA 训练队列和 11 个外部验证数据集中,AIDPS 的准确性优于性别、年龄、病理分期 (T、N、M) 和吸烟状况等因素。对 TCGA 训练队列和 11 个验证数据集中的每个预后模型进行单变量 Cox 回归分析,发现AIDPS 是唯一一个与所有 12 个队列的预后始终相关的模型(图 7A),表明其稳定性。此外,AIDPS 与其他模型之间的 C 指数比较表明 AIDPS 在每个数据集中的卓越性能。虽然许多模型在各自的训练队列和一些外部数据集中表现良好,但它们在其他验证集中表现出较差的泛化性(图 7B-M)。这种差异可能归因于某些模型中的过度拟合,导致泛化性降低。
分析高危组和低危组对化疗和免疫治疗的预测反应
作者观察到化疗药物 Bortezomib_1191、 Docetaxel_1007、 Sepantronium bromide_1941和 Vinblastine_1004的半数最大抑制浓度(IC50)值存在显着差异,与低风险组相比,在高风险组中观察到的 IC50 值始终较低(图8A-D)。使用肿瘤免疫功能障碍和排除 (TIDE) 算法的分析表明,相对于低风险组,高危组的 TIDE 评分显着更高(图 8E)。生存分析显示,与高风险反应组(低风险无反应者)相比,高风险无反应组的结局明显更差(图8F)。图8G说明了高风险和低风险类别中反应者和无反应者比例。随后作者进一步将AIDPS应用于 IMvigor210 免疫治疗数据集,在风险分层之后,生存分析和 Kaplan-Meier 曲线绘图表明,与低风险组相比,高危组的结果明显较差(图 8H-J)。
肿瘤 SNV 和免疫微环境分析
描绘两个风险组中前 30 个基因突变状态的瀑布图确定TP53(48.6%)、 TTN (43.2%) 和 MUC16(39.4%)具有相对较高的突变频率(图 9A)。比较两个风险组之间肿瘤突变负荷(TMB)、突变等位基因肿瘤异质性(MATH)和同源重组缺陷(HRD)的小提琴图显示,高危组的得分显着更高(图 9B-D)。使用 CIBERSORT 算法进行的免疫浸润分析显示,记忆B细胞、浆细胞、静息 CD4 + 记忆 T 细胞、单核细胞、静息树突状细胞和静息肥大细胞在低风险组中更普遍,而活化的 CD4 + 记忆 T 细胞、静息 NK 细胞、M0 巨噬细胞和 M1 巨噬细胞在高危组中更丰富(图 9E);通过 ESTIMATE 算法计算的免疫评分、基质评分和 ESTIMATE 评分在低风险组中较高,尽管差异未达到统计学意义(图 9F-H)。
用于 LC 的 GWAS 数据分析和 MR 分析
可视化肺癌 GWAS 数据的曼哈顿图显示,在 22 条染色体上存在多个重要的 SNP 位点,其中最突出的位点位于2号染色体上(图 10A)。随后作者通过 SMR 软件使用 eQTLGen 和 LC-GWAS 数据进行基因共定位分析,确定了两个预后相关基因 CDKN3 和 MYO1E(图 10B-C)。在对用于预后模型构建的 Cox 基因相关 SNP 位点的孟德尔随机化(MR)分析中,未发现间质性肺病(ebi-a-GCST90018643)与肺癌(ukb-a-54)之间存在显着关联。然而,rs1794002 和 rs244320 等 SNP 位点与这两种情况都表现出显著的关联(图 10D-F)、(图 11)。
研究总结
这项研究通过整合多种方法对肺腺癌(LUAD)进行了深入分析,包括获取和处理转录组学和单细胞 RNA 测序(scRNA-seq)数据,然后进行细胞分类和亚分类分析。此外,还进行了免疫浸润分析、免疫治疗和化疗反应预测、基因集富集分析(GSEA)和单核苷酸变异(SNV)分析。这些生物信息学方法的全面应用产生了一个强大且多方面的数据集,为 LUAD 的分子景观和免疫动力学提供了有价值的见解。