6+纯生信,结合单细胞+热点基因集+分析+百种机器学习+MR多种元素,值得学习!

影响因子:6.1

研究概述:肺腺癌(LUAD)是原发性肺癌最普遍的组织学亚型,其治疗效果仍然不足,准确的预后评估构成了重大挑战。本研究试图通过综合多组学方法阐明 LUAD 中线粒体相关基因的预后意义,旨在开发个性化的治疗策略。作者首先将降维和聚类技术应用于 LUAD 单细胞数据集,重点关注成纤维细胞、上皮细胞和 T 细胞的亚分类,随后使用 TCGA-LUAD 数据鉴定线粒体相关的预后基因,并通过共有聚类将 LUAD 病例分层为不同的分子亚型,从而可以探索基因表达谱和跨亚型的临床特征分布。通过利用一组机器学习算法,作者开发了一个基于线粒体相关基因的人工智能衍生预后特征(AIDPS)模型,并在多个独立数据集中验证了其预后准确性。此外,作者对肿瘤突变负荷(TMB)、免疫微环境特征和全基因组关联研究(GWAS)数据进行了全面分析,为线粒体相关基因在 LUAD 发病机制中的机制作用提供了更多见解。这项研究不仅为改善 LUAD 的预后评估提供了一种新方法,还为个性化治疗干预的开发奠定了坚实的基础。

图形摘要如下:

研究结果:

LUAD 单细胞表达图谱

在对 GSE131907 数据集中的单细胞数据进行降维和聚类分析后,确定了 31 个不同的细胞簇(图 1A-C),并进一步将簇注释为八种不同的细胞类型:成纤维细胞、内皮细胞、上皮细胞、T 细胞、B 细胞、髓系细胞、肥大细胞和 NK 细胞(图 1D,E)。在正常样本和肿瘤样本之间观察到细胞类型组成的显著差异,肿瘤组织显示 T 细胞和 B 细胞的比例较高,而正常组织包含相对较高比例的内皮细胞、NK 细胞和髓样细胞(图 1F-G)。这些观察结果通过条形图和箱形图进一步说明,提供了细胞类型分布的全面可视化。


上皮细胞亚群细分

随后,作者分离了上皮细胞以进行独立的降维和聚类分析,共得到24簇(图 2A-B),发现簇 7、8 和 12 主要由正常上皮细胞组成,而其余簇富含肿瘤细胞(图 2C-D)。在热图中,聚类 16、21、20、10、18 和 22 聚集在一起,表明功能相似,因此统一为 S2,聚类 1 、13 和 23 被归为 S3,其余簇被指定为 S1,从而产生三个亚组。上皮细胞的细胞轨迹分析揭示了不同亚组细胞轨迹之间的相关性,State1 (正常细胞) 是肿瘤分化的起点,向 State5 或 State6 分化,代表两种肿瘤类型(图 2E-F)。肿瘤样本与正常样本之间的比较显示,肿瘤来源的轨迹包含更多的上皮细胞,分布在所有六种状态,而正常样本中的大多数细胞是正常细胞,肿瘤细胞富含状态5(图 2G),图2H展示了 100 个在伪时间上表现出表达变化的基因(图 2H)。转录因子分析发现 S1 中 RXRB、 TCF7L1、 RARB、 ZNF197 和 SP4 富集,S2 中 FOXJ2、 CTCF、 KLF3、 NFKB2和 TCF7L2,以及 S3 中的 NFIC、SNAI1、HNF4G、HFYA 和 ZEB2(图2I)。此外,对每个亚组和州分别进行 CNV 分析,结果使用箱形图表示。与 S1 和 S3 相比,S2 表现出更高的 CNV 评分,其中 S3 的 CNV 评分最低(图 2J-K)。


作者观察到两个变量之间存在显著的正相关(R=0.78,p<0.05,图 2L),根据 GSEA 的结果,S1 与 ESTROGEN_ RESPONSE_LATE 和 HYPOXIA 功能通路相关(图 2M),而 S2 与 APICAL_JUNCTIO、EPITHELIAL_MESENCHYMAL_TRANSITION、ESTROGEN_RESPONSE_LATE、HYPOXIA、KRAS_ SIGNALING_DN、P53_PATHWAY 和 TNFA_SIGNALING_VIA_NFKB 通路相关(图 2N)。

T细胞与成纤维细胞亚群细分

t-SNE 图揭示了 14 个不同的T细胞簇,大多数来源于肿瘤样本(图 3A-B),确定了三种 T 细胞亚型:CD4+NKT 样细胞、记忆 CD4+T 细胞和幼稚 CD4+T 细胞(图 3C)。然后,作者对这些 T 细胞亚型进行了转录因子活性分析,热图显示记忆 CD4+T 细胞富集了 YY1 和 RUNX1,CD4+NKT 样细胞富集了 JUND 和 SOX6,幼稚 CD4+T 细胞富集了 NR1I2 和 RXRB(Fig. 3D)。此外,作者评估了肿瘤和正常样本中 T 细胞的驻留、细胞毒性、耗竭和共刺激特征的表型评分。据观察,与肿瘤组织相比,来自正常组织的 T 细胞的驻留评分和细胞毒性评分显着升高,而来自肿瘤样本的 T 细胞的耗竭评分和共刺激评分显着升高(图 3E-H)。

随后作者分离成纤维细胞鉴定出10 个簇,其中大多数细胞来源于肿瘤样本(图 3I-J),分为3种类型的癌症相关成纤维细胞(CAF)。cluster5,6被鉴定为肌成纤维细胞 CAFs (myoCAFs),而其他簇表达炎症表型,其中 cluster0、7、8、9 细胞来源于正常样本,称为 iNAFs,cluster1,2,3,4 属于肿瘤细胞,命名为 iCAFs(图 3K)。肌成纤维细胞标志物在 myoCAFs 中上调,包括收缩蛋白 (TAGLN、MYLK、MYL9) 和α平滑肌肌动蛋白 (αSMA,也称为 ACTA2),而 CFD、 DCN和 MFAP5 等炎症表型标志物在 iNAFs 和 iCAFs 中上调(图 3L)。转录因子富集分析揭示了三种类型 CAF 中转录因子的富集模式,其中 SATB1、TEAD4、HOXB7 富集于 iCAFs,ZHX2、POU4F2、SNAI1 富集于 iNAFs,FOXK1、NCOA1、RXRB 富集于 myoCAFs(图 3M)。


线粒体相关预后基因集的获取和一致性聚类分析

作者首先对 2,030 个线粒体相关基因进行了单变量 Cox 回归分析,确定了 220 个具有显著预后价值的基因(图 4A)。基于这 220 个基因的表达谱,对 TCGA-LUAD 数据集进行了一致性聚类分析,在 k=2 时实现了最佳聚类解决方案,从而产生了两个不同的聚类 (C1 和 C2)(图 4B-C)。Kaplan-Meier 生存分析显示,与 C1 组患者相比,C2 组患者的总生存期明显差(图 4D)。对线粒体相关基因表达热图的检查表明,虽然少数基因在 C1 中表达较高,但大多数基因在 C2 中表达较高(图 4E)。使用卡方检验将聚类结果与临床参数(包括年龄、M 分期、N 分期、T 分期、总体分期和生存状态)进行整合,显示除年龄外,两个聚类之间临床特征分布存在显著差异(图 4FK)。对来自两个簇的标记基因进行的基因集富集分析(GSEA)显示,C1 表现出 G2M 检查点、蛋白质分泌、活性氧(ROS)通路和未折叠蛋白质反应等通路的下调,而 C2 表现出 G2M 检查点、E2F 靶点、有丝分裂纺锤体和精子发生等通路的上调(图 4L-M)。


通过机器学习集成方法构建的预后风险模型

在 TCGA-LUAD 数据集中,使用 LOOCV 框架拟合了 101 个预测模型,然后在 11 个验证数据集中计算每个模型的 C 指数,最佳模型 Enet[a=0.2] 具有最高的平均 C 指数 (0.655),在所有验证数据集中都表现出优异的性能(图 5A)。利用最佳模型,根据预后基因的表达水平计算每位患者的风险评分,并使用临界值将样本分为高危组和低危组。在 TCGA-LUAD 数据集和其余 11 个验证数据集中,与低风险组患者相比,高危组患者的总生存期(OS)明显较差(图 5B-M),在结合所有样本的元队列中观察到类似的趋势(图 5N)。


AIDPS 模型的评估

这部分作者采用ROC分析来评估AIDPS 在 12 个数据集和结合所有样本的元队列中的预测性能,突出了 AIDPS 的强大预测能力(图 6A)。一致性指数 (C-index) 的误差条形图(图 6B)显示了 12 个数据集的 C 指数值及其 95% 置信区间,其中大多数数据集超过 0.6,进一步证实了 AIDPS 在独立队列中的稳定性和可靠性。此外,如 C 指数误差条形图(图 6C-N)所示,AIDPS 与传统临床特征的预后预测比较表明,在 TCGA 训练队列和 11 个外部验证数据集中,AIDPS 的准确性优于性别、年龄、病理分期 (T、N、M) 和吸烟状况等因素。对 TCGA 训练队列和 11 个验证数据集中的每个预后模型进行单变量 Cox 回归分析,发现AIDPS 是唯一一个与所有 12 个队列的预后始终相关的模型(图 7A),表明其稳定性。此外,AIDPS 与其他模型之间的 C 指数比较表明 AIDPS 在每个数据集中的卓越性能。虽然许多模型在各自的训练队列和一些外部数据集中表现良好,但它们在其他验证集中表现出较差的泛化性(图 7B-M)。这种差异可能归因于某些模型中的过度拟合,导致泛化性降低。


分析高危组和低危组对化疗和免疫治疗的预测反应

作者观察到化疗药物 Bortezomib_1191、 Docetaxel_1007、 Sepantronium bromide_1941和 Vinblastine_1004的半数最大抑制浓度(IC50)值存在显着差异,与低风险组相比,在高风险组中观察到的 IC50 值始终较低(图8A-D)。使用肿瘤免疫功能障碍和排除 (TIDE) 算法的分析表明,相对于低风险组,高危组的 TIDE 评分显着更高(图 8E)。生存分析显示,与高风险反应组(低风险无反应者)相比,高风险无反应组的结局明显更差(图8F)。图8G说明了高风险和低风险类别中反应者和无反应者比例。随后作者进一步将AIDPS应用于 IMvigor210 免疫治疗数据集,在风险分层之后,生存分析和 Kaplan-Meier 曲线绘图表明,与低风险组相比,高危组的结果明显较差(图 8H-J)。


肿瘤 SNV 和免疫微环境分析

描绘两个风险组中前 30 个基因突变状态的瀑布图确定TP53(48.6%)、 TTN (43.2%) 和 MUC16(39.4%)具有相对较高的突变频率(图 9A)。比较两个风险组之间肿瘤突变负荷(TMB)、突变等位基因肿瘤异质性(MATH)和同源重组缺陷(HRD)的小提琴图显示,高危组的得分显着更高(图 9B-D)。使用 CIBERSORT 算法进行的免疫浸润分析显示,记忆B细胞、浆细胞、静息 CD4 + 记忆 T 细胞、单核细胞、静息树突状细胞和静息肥大细胞在低风险组中更普遍,而活化的 CD4 + 记忆 T 细胞、静息 NK 细胞、M0 巨噬细胞和 M1 巨噬细胞在高危组中更丰富(图 9E);通过 ESTIMATE 算法计算的免疫评分、基质评分和 ESTIMATE 评分在低风险组中较高,尽管差异未达到统计学意义(图 9F-H)。


用于 LC 的 GWAS 数据分析和 MR 分析

可视化肺癌 GWAS 数据的曼哈顿图显示,在 22 条染色体上存在多个重要的 SNP 位点,其中最突出的位点位于2号染色体上(图 10A)。随后作者通过 SMR 软件使用 eQTLGen 和 LC-GWAS 数据进行基因共定位分析,确定了两个预后相关基因 CDKN3 和 MYO1E(图 10B-C)。在对用于预后模型构建的 Cox 基因相关 SNP 位点的孟德尔随机化(MR)分析中,未发现间质性肺病(ebi-a-GCST90018643)与肺癌(ukb-a-54)之间存在显着关联。然而,rs1794002 和 rs244320 等 SNP 位点与这两种情况都表现出显著的关联(图 10D-F)、(图 11)。


研究总结

这项研究通过整合多种方法对肺腺癌(LUAD)进行了深入分析,包括获取和处理转录组学和单细胞 RNA 测序(scRNA-seq)数据,然后进行细胞分类和亚分类分析。此外,还进行了免疫浸润分析、免疫治疗和化疗反应预测、基因集富集分析(GSEA)和单核苷酸变异(SNV)分析。这些生物信息学方法的全面应用产生了一个强大且多方面的数据集,为 LUAD 的分子景观和免疫动力学提供了有价值的见解。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,125评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,293评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,054评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,077评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,096评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,062评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,988评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,817评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,266评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,486评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,646评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,375评论 5 342
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,974评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,621评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,642评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,538评论 2 352

推荐阅读更多精彩内容