6+纯生信，结合单细胞+热点基因集+分析+百种机器学习+MR多种元素，值得学习！

影响因子：6.1

研究概述：肺腺癌（LUAD）是原发性肺癌最普遍的组织学亚型，其治疗效果仍然不足，准确的预后评估构成了重大挑战。本研究试图通过综合多组学方法阐明 LUAD 中线粒体相关基因的预后意义，旨在开发个性化的治疗策略。作者首先将降维和聚类技术应用于 LUAD 单细胞数据集，重点关注成纤维细胞、上皮细胞和 T 细胞的亚分类，随后使用 TCGA-LUAD 数据鉴定线粒体相关的预后基因，并通过共有聚类将 LUAD 病例分层为不同的分子亚型，从而可以探索基因表达谱和跨亚型的临床特征分布。通过利用一组机器学习算法，作者开发了一个基于线粒体相关基因的人工智能衍生预后特征（AIDPS）模型，并在多个独立数据集中验证了其预后准确性。此外，作者对肿瘤突变负荷（TMB）、免疫微环境特征和全基因组关联研究（GWAS）数据进行了全面分析，为线粒体相关基因在 LUAD 发病机制中的机制作用提供了更多见解。这项研究不仅为改善 LUAD 的预后评估提供了一种新方法，还为个性化治疗干预的开发奠定了坚实的基础。

图形摘要如下：

研究结果：

LUAD 单细胞表达图谱

在对 GSE131907 数据集中的单细胞数据进行降维和聚类分析后，确定了 31 个不同的细胞簇（图 1A-C），并进一步将簇注释为八种不同的细胞类型：成纤维细胞、内皮细胞、上皮细胞、T 细胞、B 细胞、髓系细胞、肥大细胞和 NK 细胞（图 1D，E）。在正常样本和肿瘤样本之间观察到细胞类型组成的显著差异，肿瘤组织显示 T 细胞和 B 细胞的比例较高，而正常组织包含相对较高比例的内皮细胞、NK 细胞和髓样细胞（图 1F-G）。这些观察结果通过条形图和箱形图进一步说明，提供了细胞类型分布的全面可视化。

上皮细胞亚群细分

随后，作者分离了上皮细胞以进行独立的降维和聚类分析，共得到24簇（图 2A-B），发现簇 7、8 和 12 主要由正常上皮细胞组成，而其余簇富含肿瘤细胞（图 2C-D）。在热图中，聚类 16、21、20、10、18 和 22 聚集在一起，表明功能相似，因此统一为 S2，聚类 1 、13 和 23 被归为 S3，其余簇被指定为 S1，从而产生三个亚组。上皮细胞的细胞轨迹分析揭示了不同亚组细胞轨迹之间的相关性，State1 （正常细胞）是肿瘤分化的起点，向 State5 或 State6 分化，代表两种肿瘤类型（图 2E-F）。肿瘤样本与正常样本之间的比较显示，肿瘤来源的轨迹包含更多的上皮细胞，分布在所有六种状态，而正常样本中的大多数细胞是正常细胞，肿瘤细胞富含状态5（图 2G），图2H展示了 100 个在伪时间上表现出表达变化的基因（图 2H）。转录因子分析发现 S1 中 RXRB、 TCF7L1、 RARB、 ZNF197 和 SP4 富集，S2 中 FOXJ2、 CTCF、 KLF3、 NFKB2和 TCF7L2，以及 S3 中的 NFIC、SNAI1、HNF4G、HFYA 和 ZEB2（图2I）。此外，对每个亚组和州分别进行 CNV 分析，结果使用箱形图表示。与 S1 和 S3 相比，S2 表现出更高的 CNV 评分，其中 S3 的 CNV 评分最低（图 2J-K）。

作者观察到两个变量之间存在显著的正相关（R=0.78，p<0.05，图 2L），根据 GSEA 的结果，S1 与 ESTROGEN_ RESPONSE_LATE 和 HYPOXIA 功能通路相关（图 2M），而 S2 与 APICAL_JUNCTIO、EPITHELIAL_MESENCHYMAL_TRANSITION、ESTROGEN_RESPONSE_LATE、HYPOXIA、KRAS_ SIGNALING_DN、P53_PATHWAY 和 TNFA_SIGNALING_VIA_NFKB 通路相关（图 2N）。

T细胞与成纤维细胞亚群细分

t-SNE 图揭示了 14 个不同的T细胞簇，大多数来源于肿瘤样本（图 3A-B），确定了三种 T 细胞亚型：CD4+NKT 样细胞、记忆 CD4+T 细胞和幼稚 CD4+T 细胞（图 3C）。然后，作者对这些 T 细胞亚型进行了转录因子活性分析，热图显示记忆 CD4+T 细胞富集了 YY1 和 RUNX1，CD4+NKT 样细胞富集了 JUND 和 SOX6，幼稚 CD4+T 细胞富集了 NR1I2 和 RXRB（Fig. 3D）。此外，作者评估了肿瘤和正常样本中 T 细胞的驻留、细胞毒性、耗竭和共刺激特征的表型评分。据观察，与肿瘤组织相比，来自正常组织的 T 细胞的驻留评分和细胞毒性评分显着升高，而来自肿瘤样本的 T 细胞的耗竭评分和共刺激评分显着升高（图 3E-H）。

随后作者分离成纤维细胞鉴定出10 个簇，其中大多数细胞来源于肿瘤样本（图 3I-J），分为3种类型的癌症相关成纤维细胞（CAF）。cluster5,6被鉴定为肌成纤维细胞 CAFs （myoCAFs），而其他簇表达炎症表型，其中 cluster0、7、8、9 细胞来源于正常样本，称为 iNAFs，cluster1,2,3,4 属于肿瘤细胞，命名为 iCAFs（图 3K）。肌成纤维细胞标志物在 myoCAFs 中上调，包括收缩蛋白（TAGLN、MYLK、MYL9）和α平滑肌肌动蛋白（αSMA，也称为 ACTA2），而 CFD、 DCN和 MFAP5 等炎症表型标志物在 iNAFs 和 iCAFs 中上调（图 3L）。转录因子富集分析揭示了三种类型 CAF 中转录因子的富集模式，其中 SATB1、TEAD4、HOXB7 富集于 iCAFs，ZHX2、POU4F2、SNAI1 富集于 iNAFs，FOXK1、NCOA1、RXRB 富集于 myoCAFs（图 3M）。

线粒体相关预后基因集的获取和一致性聚类分析

作者首先对 2,030 个线粒体相关基因进行了单变量 Cox 回归分析，确定了 220 个具有显著预后价值的基因（图 4A）。基于这 220 个基因的表达谱，对 TCGA-LUAD 数据集进行了一致性聚类分析，在 k=2 时实现了最佳聚类解决方案，从而产生了两个不同的聚类（C1 和 C2）（图 4B-C）。Kaplan-Meier 生存分析显示，与 C1 组患者相比，C2 组患者的总生存期明显差（图 4D）。对线粒体相关基因表达热图的检查表明，虽然少数基因在 C1 中表达较高，但大多数基因在 C2 中表达较高（图 4E）。使用卡方检验将聚类结果与临床参数（包括年龄、M 分期、N 分期、T 分期、总体分期和生存状态）进行整合，显示除年龄外，两个聚类之间临床特征分布存在显著差异（图 4FK）。对来自两个簇的标记基因进行的基因集富集分析（GSEA）显示，C1 表现出 G2M 检查点、蛋白质分泌、活性氧（ROS）通路和未折叠蛋白质反应等通路的下调，而 C2 表现出 G2M 检查点、E2F 靶点、有丝分裂纺锤体和精子发生等通路的上调（图 4L-M）。

通过机器学习集成方法构建的预后风险模型

在 TCGA-LUAD 数据集中，使用 LOOCV 框架拟合了 101 个预测模型，然后在 11 个验证数据集中计算每个模型的 C 指数，最佳模型 Enet[a=0.2] 具有最高的平均 C 指数（0.655），在所有验证数据集中都表现出优异的性能（图 5A）。利用最佳模型，根据预后基因的表达水平计算每位患者的风险评分，并使用临界值将样本分为高危组和低危组。在 TCGA-LUAD 数据集和其余 11 个验证数据集中，与低风险组患者相比，高危组患者的总生存期（OS）明显较差（图 5B-M），在结合所有样本的元队列中观察到类似的趋势（图 5N）。

AIDPS 模型的评估

这部分作者采用ROC分析来评估AIDPS 在 12 个数据集和结合所有样本的元队列中的预测性能，突出了 AIDPS 的强大预测能力（图 6A）。一致性指数（C-index）的误差条形图（图 6B）显示了 12 个数据集的 C 指数值及其 95% 置信区间，其中大多数数据集超过 0.6，进一步证实了 AIDPS 在独立队列中的稳定性和可靠性。此外，如 C 指数误差条形图（图 6C-N）所示，AIDPS 与传统临床特征的预后预测比较表明，在 TCGA 训练队列和 11 个外部验证数据集中，AIDPS 的准确性优于性别、年龄、病理分期（T、N、M）和吸烟状况等因素。对 TCGA 训练队列和 11 个验证数据集中的每个预后模型进行单变量 Cox 回归分析，发现AIDPS 是唯一一个与所有 12 个队列的预后始终相关的模型（图 7A），表明其稳定性。此外，AIDPS 与其他模型之间的 C 指数比较表明 AIDPS 在每个数据集中的卓越性能。虽然许多模型在各自的训练队列和一些外部数据集中表现良好，但它们在其他验证集中表现出较差的泛化性（图 7B-M）。这种差异可能归因于某些模型中的过度拟合，导致泛化性降低。

分析高危组和低危组对化疗和免疫治疗的预测反应

作者观察到化疗药物 Bortezomib_1191、 Docetaxel_1007、 Sepantronium bromide_1941和 Vinblastine_1004的半数最大抑制浓度（IC50）值存在显着差异，与低风险组相比，在高风险组中观察到的 IC50 值始终较低（图8A-D）。使用肿瘤免疫功能障碍和排除（TIDE）算法的分析表明，相对于低风险组，高危组的 TIDE 评分显着更高（图 8E）。生存分析显示，与高风险反应组（低风险无反应者）相比，高风险无反应组的结局明显更差（图8F）。图8G说明了高风险和低风险类别中反应者和无反应者比例。随后作者进一步将AIDPS应用于 IMvigor210 免疫治疗数据集，在风险分层之后，生存分析和 Kaplan-Meier 曲线绘图表明，与低风险组相比，高危组的结果明显较差（图 8H-J）。

肿瘤 SNV 和免疫微环境分析

描绘两个风险组中前 30 个基因突变状态的瀑布图确定TP53（48.6%）、 TTN （43.2%）和 MUC16（39.4%）具有相对较高的突变频率（图 9A）。比较两个风险组之间肿瘤突变负荷（TMB）、突变等位基因肿瘤异质性（MATH）和同源重组缺陷（HRD）的小提琴图显示，高危组的得分显着更高（图 9B-D）。使用 CIBERSORT 算法进行的免疫浸润分析显示，记忆B细胞、浆细胞、静息 CD4 + 记忆 T 细胞、单核细胞、静息树突状细胞和静息肥大细胞在低风险组中更普遍，而活化的 CD4 + 记忆 T 细胞、静息 NK 细胞、M0 巨噬细胞和 M1 巨噬细胞在高危组中更丰富（图 9E）；通过 ESTIMATE 算法计算的免疫评分、基质评分和 ESTIMATE 评分在低风险组中较高，尽管差异未达到统计学意义（图 9F-H）。

用于 LC 的 GWAS 数据分析和 MR 分析

可视化肺癌 GWAS 数据的曼哈顿图显示，在 22 条染色体上存在多个重要的 SNP 位点，其中最突出的位点位于2号染色体上（图 10A）。随后作者通过 SMR 软件使用 eQTLGen 和 LC-GWAS 数据进行基因共定位分析，确定了两个预后相关基因 CDKN3 和 MYO1E（图 10B-C）。在对用于预后模型构建的 Cox 基因相关 SNP 位点的孟德尔随机化（MR）分析中，未发现间质性肺病（ebi-a-GCST90018643）与肺癌（ukb-a-54）之间存在显着关联。然而，rs1794002 和 rs244320 等 SNP 位点与这两种情况都表现出显著的关联（图 10D-F）、（图 11）。

研究总结

这项研究通过整合多种方法对肺腺癌（LUAD）进行了深入分析，包括获取和处理转录组学和单细胞 RNA 测序（scRNA-seq）数据，然后进行细胞分类和亚分类分析。此外，还进行了免疫浸润分析、免疫治疗和化疗反应预测、基因集富集分析（GSEA）和单核苷酸变异（SNV）分析。这些生物信息学方法的全面应用产生了一个强大且多方面的数据集，为 LUAD 的分子景观和免疫动力学提供了有价值的见解。

6+纯生信，结合单细胞+热点基因集+分析+百种机器学习+MR多种元素，值得学习！

6+纯生信，结合单细胞+热点基因集+分析+百种机器学习+MR多种元素，值得学习！

推荐阅读更多精彩内容

友情链接更多精彩内容