01文章信息
发表杂志名称:Journal of Translational Medicine
中文标题:多组学整合和机器学习揭示胰腺癌的分子基底样亚型并表明 A2ML1 在促进肿瘤上皮 - 间质转化中的作用
英文标题:Multi-omics integration and machine learning uncover molecular basal-like subtype of pancreatic cancer and implicate A2ML1 in promoting tumor epithelial-mesenchymal transition
影响因子:7.5
发表日期:2025 年 7 月 4 日
01研究概述
胰腺癌(PC)具有高度异质性且预后较差,精确的分子分型有助于深入理解疾病进展。本研究整合了 168 个 PC 样本的转录组、甲基化和突变数据,采用 10 种分类方法在 13 个独立队列中建立并验证了分子亚型;通过多种机器学习方法识别预后基因并构建预测模型,重点探究了关键基因 A2ML1 的功能及机制。结果显示,PC 可分为两个预后不同的分子亚型,通路富集分析揭示了亚型特异性特征;基于 23 个预后基因,利用 101 种机器学习算法及组合构建的预后模型中,岭回归表现最优,且该模型准确性优于多个已发表模型,其风险评分与药物敏感性、临床特征及患者结局显著相关;A2ML1 在 PC 组织中高表达,通过下调 LZTR1 表达激活 KRAS/MAPK 通路,最终驱动上皮 - 间质转化(EMT)以促进 PC 进展。综上,本研究发现了 PC 的分子基底样亚型,建立了基于岭回归的预后模型,并证实 A2ML1 是 PC 进展中 EMT 的关键调控因子。
01研究结果
图 1:TCGA-PAAD 队列的胰腺癌样本可分为 CS1 和 CS2 两个亚型
作者通过 CAP 和 Gap-statistics 方法综合评估,确定最佳聚类数为 2(图 1A);热图展示了两个分子亚型在 mRNA、miRNA、lncRNA、DNA 甲基化位点和突变基因中的多组学特征,突出了每个组学类别中前 10 个最具变异性的特征(图 1B);轮廓图显示两个分子亚型的聚类效果良好(图 1C);整合 10 种不同分类方法的分型结果,确定了每个样本的分子亚型(图 1D);共识热图清晰展示了两个分子亚型的独特特征(图 1E);Kaplan-Meier 曲线显示,CS1 在所有时间点的预后均显著差于 CS2(P<0.001,图 1F)。综上,TCGA-PAAD 队列的胰腺癌样本可明确分为 CS1 和 CS2 两个分子亚型,且两者预后差异显著。

图 2:两个亚型在免疫浸润、通路富集和免疫相关基因表达上存在显著差异
作者通过多种计算算法评估免疫细胞浸润,发现 CS1 和 CS2 在中性粒细胞、巨噬细胞、髓系树突状细胞和调节性 T 细胞等多种免疫细胞的浸润上存在显著差异(图 2A);GSEA 分析显示,CS1 的差异表达基因(DEGs)显著富集于免疫相关生物学过程(如抗菌体液免疫反应、中性粒细胞迁移)和 EMT 相关过程(如角质化、表皮发育调控),而 CS2 则富集于代谢相关过程(如 mRNA 核输出、谷氨酸受体信号通路)(图 2B);GSVA 分析揭示,两个亚型在免疫相关过程基因集(图 2C)和 hallmark 基因集(如凋亡、EMT、缺氧、KRAS 信号)(图 2D)的富集水平上存在显著差异;此外,CS1 中大多数免疫调节剂(图 2E)和免疫检查点(如 CTLA4、CD276)(图 2F)的表达显著低于 CS2。综上,两个分子亚型在免疫浸润模式、通路富集特征及免疫相关基因表达上具有显著差异。

图 3:分子分型在外部队列中稳健且与临床特征和其他分型相关
作者利用 12 个外部胰腺癌队列验证分子亚型的有效性,通过 NTP 方法预测样本亚型后,Kaplan-Meier 分析显示,除 GSE28735 队列外,多个队列(如 E-MTAB-6134、GSE21501 等)中 CS2 的预后均显著优于 CS1(P<0.05,图 3A-E 及补充图 1A-F);比较临床特征发现,与 CS2 相比,CS1 表现出更晚期的肿瘤分期和更高的组织学分级(P<0.05,图 3G-J);与既往分型系统比较,CS1 主要与免疫 C2 和 C6 特征相关,而 CS2 富集免疫 C3 特征(图 3K),且 CS1 富集基质激活和纯基底样亚型,CS2 则倾向于纯经典和免疫经典亚型(图 3L)。综上,该分子分型在多个外部队列中具有稳健性,且与临床特征及其他已建立的分型系统存在显著关联。

图 4:基于岭回归的预后模型表现最佳且能有效区分高低风险组
作者在训练集(E-MTAB-6134)中使用 101 种机器学习算法组合构建预后模型,并在 12 个独立验证队列中验证,发现岭回归在所有算法组合中平均 C 指数最高(图 4A);确定了最小部分似然偏差下的最佳 λ 值及相应变量系数(图 4B);对 23 个候选基因进行单变量 Cox 回归分析(图 4C 及补充图 2A-L);在岭回归模型中,计算每个样本的风险评分并以最佳阈值将其分为高风险和低风险组(图 4D 及补充图 3A-L);除 GSE21501 队列外,所有数据集的高风险组预后均显著差于低风险组(P<0.05,图 4E 及补充图 4A-L)。综上,基于岭回归的预后模型表现最优,可有效将患者分为不同预后风险组。

图 5:本研究的预后 signature 预测性能优于既往模型
作者通过系统文献综述收集了 172 个已发表的胰腺癌预后 signature,在多个独立队列(如 E-MTAB-6134、GSE21501、GSE28735 等)中比较发现,本研究的 signature 在所有队列中均保持顶级 C 指数排名(图 5A-G 及补充图 5A-F)。综上,本研究开发的预后 signature 的预测稳定性和准确性优于既往已发表的模型。

图 6:整合 signature 和临床变量的预后模型具有高准确性
作者比较发现,在所有评估队列中,该 signature 的预后准确性均优于患者年龄、肿瘤分期、组织分化等级和治疗方式等临床变量(图 6A-E);利用 TCGA-PAAD 队列的临床数据,通过单变量和多变量 Cox 回归分析,将年龄、肿瘤分级、化疗状态和风险评分纳入最终预后模型(图 6F-G);该模型以动态列线图和在线计算器形式实现(图 6H),校准曲线和决策曲线分析(DCA)显示其预测性能稳健(图 6I-J);ROC 曲线显示,该模型预测总生存期(OS)的 1 年 AUC 为 0.82,2-3 年 AUC 为 0.79(图 6K)。综上,整合预后 signature 和临床变量的模型具有较高的预测准确性,可有效评估患者预后。

图 7:风险评分与通路富集、药物敏感性和临床特征相关
作者对高低风险组的 DEGs 进行 GSEA 分析,发现低风险组显著富集代谢通路(如 GABA 能突触、蛋白质输出),高风险组则富集免疫相关疾病通路(如哮喘、自身免疫性甲状腺疾病)(图 7A);药物敏感性分析显示,高风险组对 AICAR、博来霉素等药物更敏感,低风险组对阿西替尼、埃勒斯克洛莫尔等更敏感(均 P<0.001,图 7B);风险评分与肿瘤突变负荷(TMB)无显著相关性(P>0.05,图 7C);此外,风险评分与肿瘤分级(G3/4>G2>G1)、切除边缘状态(R1>R0)、组织学分类(基底样 > 经典)均显著相关(均 P<0.05,图 7D-F)。综上,风险评分与通路富集模式、药物敏感性及多项临床特征密切相关。

图 8:单细胞分析显示 A2ML1 在特定细胞类型中高表达
作者对 8 个独立队列的单细胞 RNA 测序(scRNA-seq)数据进行分析,经降维、聚类和细胞类型注释后发现,FAM83A 和 A2ML1 主要在上皮细胞、导管细胞和恶性细胞群体中高表达(图 8A-D 及补充图 6A-D)。综上,单细胞水平分析表明 A2ML1 在胰腺癌的特定细胞类型中高表达。

图 9:A2ML1 在肿瘤组织中高表达且有特定定位
作者通过空间转录组分析 GSE272362 数据集,发现 A2ML1 在胰腺癌标本中的表达谱和组织定位具有特异性;与正常胰腺组织相比,肿瘤组织(包括原发灶、淋巴结转移灶和肝转移灶)中 A2ML1 阳性细胞的比例显著升高(图 9A-D)。综上,空间转录组分析证实 A2ML1 在胰腺癌组织(包括原发和转移灶)中高表达。

图 10:A2ML1 在胰腺癌中高表达且促进肿瘤细胞增殖
作者通过 RT-qPCR、western blotting 和免疫组化(IHC)验证发现,A2ML1 在 5 对胰腺癌及癌旁正常组织中显著高表达(图 10A-C);在细胞系中,A2ML1 在 4 种胰腺癌细朐系(T3M-4、PANC-1 等)中的表达显著高于正常胰腺导管上皮细胞系 H6C7(图 10D-E);通过 RNA 干扰沉默 T3M-4 细胞中的 A2ML1(图 10F),或通过慢病毒转导在 PANC-1 细胞中过表达 A2ML1(图 10G)后,CCK-8(图 10H)和集落形成实验(图 10I)显示,A2ML1 敲低显著抑制细胞增殖,而过表达则促进增殖。综上,A2ML1 在胰腺癌组织和细胞系中高表达,且能促进肿瘤细胞增殖。

图 11:A2ML1 促进胰腺癌细朐迁移、侵袭,抑制凋亡,影响细胞周期和 EMT
作者通过伤口愈合实验(图 11A)和 Transwell 迁移实验(图 11B)发现,A2ML1 敲低显著抑制 T3M-4 细胞迁移,过表达则促进 PANC-1 细胞迁移;Transwell 侵袭实验显示类似结果(图 11C);Western blotting 检测 EMT 标志物发现,A2ML1 敲低减少 N - 钙粘蛋白、波形蛋白和 Snail 的表达,增加 E - 钙粘蛋白水平,过表达则呈现相反效果(图 11D);流式细胞术显示,A2ML1 敲低促进细胞凋亡(图 11E),并诱导 G1 期细胞周期阻滞(图 11F)。综上,A2ML1 可促进胰腺癌细朐的迁移、侵袭和 EMT,抑制凋亡,并影响细胞周期进程。

图 12:A2ML1 在类器官中诱导 EMT 并与 LZTR1 相互作用
作者利用患者来源的类器官模型,发现胰腺癌类器官有腺状和实性两种形态(图 12A),TGF-β1 处理可诱导 EMT 形态转变,而 A2ML1 过表达也能诱导类似的间质转化(图 12B);免疫荧光分析显示,A2ML1 过表达的类器官中 E - 钙粘蛋白减少、波形蛋白增加(图 12C);通过生物信息学预测和 Co-IP 实验,证实 A2ML1 与 LZTR1 存在蛋白质水平的相互作用(图 12D-E);免疫荧光显示两者均定位于细胞质(图 12F)。综上,A2ML1 可在类器官中诱导 EMT,并与 LZTR1 在细胞质中相互作用。

图 13:A2ML1 通过下调 LZTR1 激活 KRAS/MAPK 通路促进 EMT
作者通过 RT-qPCR 和 western blotting 证实,A2ML1 敲低可上调 LZTR1 表达并抑制 MAPK 通路活性,过表达则下调 LZTR1 并激活 MAPK 通路(图 13A-B);泛素化实验显示,A2ML1 敲低增强 KRAS 泛素化,过表达则抑制(图 13C);Ras 激活实验表明,A2ML1 对 Ras 活性的调控可被 LZTR1 逆转(图 13D);在 KRAS 野生型(WT)细胞中,A2ML1 敲低显著抑制 EMT 和 MAPK 信号,但在 KRAS-K117R 突变细胞中无显著变化(图 13E-G)。综上,A2ML1 通过下调 LZTR1,影响 KRAS 泛素化和激活,进而激活 KRAS/MAPK 通路以促进 EMT。

图 14:A2ML1 调控 KRAS/MAPK 信号通路的机制示意图
该图展示了 A2ML1 的调控机制:在正常胰腺中,LZTR1 表达较高,可抑制 Raf/MEK/ERK(MAPK)通路,进而抑制 EMT;在胰腺癌中,A2ML1 高表达并与 LZTR1 相互作用,下调 LZTR1 表达,解除对 MAPK 通路的抑制,激活下游转录,最终促进 EMT(图 14)。综上,该图清晰示意了 A2ML1 通过 LZTR1 调控 KRAS/MAPK 通路及 EMT 的分子机制。

图 15:研究整体流程图
该图展示了研究的三个主要步骤:第一步,整合多组学数据,通过 10 种聚类方法识别胰腺癌的两个分子亚型,并在 12 个外部队列中验证;第二步,基于 10 种机器学习方法,以 E-MTAB-6134 为训练集建立并验证预后 signature,分析其与通路、药物敏感性等的关联;第三步,验证 A2ML1 在胰腺癌中的高表达,通过功能实验证实其通过下调 LZTR1 激活 KRAS/MAPK 通路促进 EMT(图 15)。综上,该图系统概括了本研究的整体设计和 workflow。

本研究通过整合 168 个胰腺癌样本的多组学数据(转录组、甲基化、突变),利用 10 种分类方法在 13 个独立队列中识别并验证了两个预后不同的分子亚型(CS1 和 CS2),其中 CS1 为基底样亚型,预后较差且与免疫浸润、EMT 相关通路富集相关;基于 23 个预后基因,通过 101 种机器学习算法组合构建了以岭回归为最优的预后模型,其预测性能优于既往模型,风险评分与药物敏感性、临床特征显著相关;进一步发现 A2ML1 在胰腺癌组织中高表达,通过与 LZTR1 相互作用下调其表达,激活 KRAS/MAPK 通路,最终促进 EMT 以推动肿瘤进展。该研究为胰腺癌的分子分型、预后评估及精准治疗提供了新的见解和依据。