Identification of a Prognostic Signature Composed of GPI, IL22RA1, CCT6A and SPOCK1 for Lung Adenocarcinoma Based on Bioinformatic Analysis of lncRNA-Mediated ceRNA Network and Sample Validation
基于lncRNA介导的ceRNA网络的生物信息学分析和样本验证,识别由GPI、IL22RA1、CCT6A和SPOCK1组成的肺腺癌预后特征
发表期刊:Front Oncol
发表日期:2022 Mar 28
DOI: 10.3389/fonc.2022.844691
一、背景
肺腺癌(LUAD)是中国乃至全球最常见的恶性肿瘤之一,发病率和死亡率都很高,占所有肺癌的40%。目前,对LUAD生物学特性的认识不足,限制了疗效的进一步提高。因此,迫切需要弄清肿瘤的发病机制,确定新的生物标志物和治疗方案以改善预后。
长非编码RNAs(lncRNAs)是一种长度超过200个核苷酸的转录物,几乎没有编码蛋白质的潜力。近年来,越来越多的证据表明,lncRNAs可以作为竞争性内源性RNA(ceRNA),通过竞争共享的miRNAs来间接调节下游目标mRNA的表达,随后参与复杂疾病表型和各种病理过程的发展,包括癌症。
二、材料与方法
1.数据来源
1)40个配对的LUAD和邻近的非肿瘤组织
2)NSCLC细胞系(HCI-H1299和A549)、永生化肺上皮细胞系BEAS-2B和HEK293T
3)从TCGA数据库下载LUAD相关RNAs表达的原始测序数据和相应患者的完整临床数据
4)GSE32863
2.实验流程
1) 细胞培养和shRNA的稳定转染、菌落形成试验和伤口愈合试验、免疫印迹法
2) lncRNAs、miRNAs和mRNAs在LUAD和邻近非肿瘤组织中的表达概况分析:使用R软件包edgeR来筛选LUAD和邻近非肿瘤组织中差异表达的lncRNAs、miRNAs和mRNAs
3) LUAD中ceRNA网络的构建:miRcod数据库被用来预测差异表达的lncRNA和miRNA之间的相互作用;从miRTarBase、miRDB和TargetScan数据库中搜索差异表达的miRNA靶标
4) 基于ceRNA网络的预后特征的建立和验证:单变量Cox回归分析提取ceRNA网络中的生存相关节点基因;使用R包 "glmnet "通过LASSO回归分析,进一步提取预后基因用于多变量Cox回归;nomogram构建;使用Oncomine、TCGA和GSE32863验证了预后标志基因的mRNA表达水平;使用40对LUAD和邻近的非肿瘤组织,通过Western blot分析进一步验证了蛋白质的表达水平
5) 基因组富集分析:GESA
6) 22种免疫细胞类型的浸润模式及ceRNA网络相关基因特征与免疫治疗生物标志物的相关性分析:CIBERSORT
7) 基于ceRNA网络相关基因特征的化疗反应预测
三、实验结果
01 - 开发和验证基于ceRNA网络的预后特征
作者分析了LUAD中lncRNA、miRNA和mRNA的差异表达,使用的TCGA数据库包含497个LUAD和54个癌旁样本。在LUAD和邻近的非肿瘤样本之间共鉴定了214个lncRNA(51个下调和163个上调),198个miRNA(87个下调和111个上调)和2989个mRNA(1344个下调和1645个上调)。
为了探索LUAD中ceRNA的潜在调节机制,作者试图根据ceRNA假说建立LUAD的ceRNA网络。使用miRcode、miRTarBase和miRDB数据库,共鉴定了119个miRAN-mRNA对和15个lncRNA-miRNA对的相互作用。最后,构建了一个LUAD特有的lncRNA-miRNA-mRNA ceRNA网络,由7个lncRNAs、15个miRNAs和95个mRNAs组成,包括117个节点和134条边,并进行了可视化(补充图2)。
由于上述构建的ceRNA网络是由许多基因及其相互作用组成的,因此不容易明确其诊断和预后的意义。因此,利用TCGA-LUAD数据库进行单变量Cox回归分析,筛选出ceRNA网络中与LUAD患者总生存期(OS)相关的节点基因。结果显示,24个节点基因与OS明显相关(图1A)。随后,为降低风险模型的复杂性,采用Lasso回归分析,剔除相关性相对较低的基因,从24个预后基因中筛选了9个(图1B,C)。然后,将462名有生存数据的TCGA-LUAD患者随机分为训练组和测试组,基于多变量Cox回归分析,在训练队列中建立了一个预后特征模型。确定了四个候选特征基因,即GPI、IL22RA1、CCT6A和SPOCK1(图1D , E)。
基于4个基因特征的风险评分公式被构建为风险评分=0.314∗GPI+0.127∗IL22RA1+0.330∗CCT6A+0.104∗SPOCK1。根据风险评分的中位数,训练队列中的232名LUAD患者被分为高风险和低风险组。如图2A、B所示,风险分数的增加与LUAD患者的不良OS有关,K-M曲线显示,高危组患者的OS下降(图2C)。ROC分析观察到,与上述每个基因相比,四个基因的预后特征具有更大的AUC值(图2D)。此外,主成分分析(PCA)清楚地确定了两个风险组之间的明显不同分布(图2E)。
最后,为了验证四基因特征的预测价值,用测试队列(n=230)和整个队列(n=462)作为验证集来评估训练队列的结果。与训练队列的结果类似,两个验证集的KM曲线显示,低风险组的患者表现出更好的OS(图2F,I)。在测试队列和整个队列中,四个基因特征的AUC在1年、3年和5年的时间点分别为0.633、0.635、0.665、0.673、0.672和0.668(图2G,J)。此外,PCA也显示出与训练队列类似的结果(图2H,K)。
然后对四个预后特征基因进行了外部验证。Oncomine数据库分析发现,与正常肺组织相比,LUAD组织中GPI、IL22RA1、CCT6A和SPOCK1 mRNA的表达水平明显更高(图3A)。此外,从TCGA的配对样本和GSE32863数据库中进一步确认了这四个基因在LUAD中的mRNA表达(图3B,C)。通过Western blot分析调查了这四个基因在40对LUAD组织和邻近非肿瘤组织中的蛋白表达水平。结果显示,GPI、IL22RA1、CCT6A和SPOCK1在肿瘤组织(T)中的表达明显高于对照组织(N)(n=40;图3D,E)。
02 - ceRNA网络相关基因特征与其他报道的基因特征在预后评估中的性能比较
为了进一步评估ceRNA网络相关基因特征的预测性能,作者选择了其他四种已发表的基因特征进行比较。根据这四个模型中的相应基因,用同样的方法(多变量Cox回归分析)在训练队列中计算每个病人的风险得分,然后评估时间依赖的ROC。图2D和图4A -D显示,ceRNA网络相关基因特征对5年OS的AUC为0.678,明显大于其他基因特征。通过限制性平均生存率(RMS)软件包计算的所有预后特征的C-指数显示,本研究模型具有最高的C-指数,为0.668(图4E)。此外,所有五个预后模型的RMS时间曲线也表明,本研究4个基因特征在大于8年的时间段内表现最好(图4F)。这些结果表明,ceRNA网络相关基因特征可能为LUAD提供更好的预后评估性能。
03 - 基于风险特征的预测nomogram的构建和验证
单变量Cox回归分析显示,肿瘤分期、复发和风险评分与训练组的OS密切相关(图 5A),多变量Cox回归分析进一步证实了上述结果(图5B)。因此,将这三个因素结合起来,构建了一个预测LUAD患者1年、3年和5年的OS的复合nomogram(图5C)。训练队列中预测LUAD患者3年OS的nomogram校准图显示实际观察和nomogram预测之间有很大的一致性(图5D),nomogram模型预测OS的C-指数为0.778。此外,该nomogram预测3年OS的AUC值大于分期、复发和风险评分,表明使用nomogram预测OS可能带来更多的净收益(图5E)。最后,进一步评估了使用测试队列和整个队列的四基因预后nomogram的预测价值。校准图(图5F,H)和风险分数的时间依赖性ROC曲线(图5G,I)与从训练集得出的结果一致。
04 - 风险特征的功能注释
为了进一步探索与四个基因特征相关的潜在生物途径和过程,作者通过GSEA对训练队列中的样本进行了基因集富集。发现与肿瘤发生有关的关键途径,包括细胞周期、DNA复制、P53信号通路、蛋白酶体和剪接体,在高危组中明显富集(图6A)。此外,作者研究了风险模型是否与肿瘤免疫微环境有关,绘制了22种肿瘤免疫细胞类型的热图,显示这些免疫细胞的分布(图6B)。然后,发现高危LUAD患者的T细胞CD4记忆激活、NK细胞静止、巨噬细胞M0和巨噬细胞M1的比例明显较高,T细胞CD4记忆静止、单核细胞和肥大细胞静止的比例较低(图6C)。此外,进一步分析了风险组与免疫检查点分子表达之间的相关性。结果显示,与低风险组相比,高风险组的TNFSF4、CD274、PD-L1和LAG3的表达水平明显更高(图6D)。因此,在这些结果中观察到的免疫细胞浸润和免疫检查点分子表达的异质性可能为LUAD患者提供潜在的预后指标和免疫治疗的目标。
05 - 高风险和低风险LUAD患者的化疗反应分析
除了免疫检查点阻断疗法,化疗仍然是晚期LUAD患者的有效治疗方法。因此,作者试图在整个队列中调查LUAD的低风险和高风险患者对常见化疗药物的反应。根据GDSC的数据,计算出高危组和低危组的IC50值。结果表明,高危LUAD患者对顺铂、多西紫杉醇、多柔比星、厄洛替尼、依托泊苷、吉西他滨、紫杉醇和长春瑞滨的敏感性增加,而高危组和低危组之间阿糖胞苷的IC50值没有明显差异,这表明四基因风险模型可能作为化学敏感性的潜在预测因子(图7)。
06 - 构成风险特征的GPI、IL22RA1、CCT6A和SPOCK1影响LUAD的预后,与PI3K/AKT信号通路的激活相关
最后,为了深入了解GPI、IL22RA1、CCT6A和SPOCK1对LUAD进展的影响,利用TACG-LUAD数据库进行了GESA,分别比较GPI、IL22RA1、CCT6A和SPOCK1的高表达和低表达。观察到,许多参与PI3K-AKT-mTOR信号通路的重要调控基因,在调节各种致癌过程中发挥着重要作用,在GPI、IL22RA1、CCT6A和SPOCK1高表达的细胞中明显富集(图8A)。
鉴于CCT6A的归一化富集分数(NES)最高,作者主要选择CCT6A来探索相关机制。首先通过Western blot检测了CCT6A在BEAS-2B、A549和H1299细胞系中的表达水平(图8B)。由于CCT6A在两个非小细胞肺癌(NSCLC)细胞系A549和H1299中的高表达水平,使用了针对CCT6A的短发夹RNA(shRNA)来沉默CCT6A。结果显示,CCT6A的敲除大大降低了A549和H1299的增殖和迁移(图8C-F)。此外,Western blot分析显示,CCT6A沉默明显抑制了A549和H1299的上皮-间质转化(EMT),表现为N-adherin的蛋白水平明显降低,E-cadherin明显增加。值得注意的是,还观察到CCT6A敲除后,p-PI3K和p-AKT的蛋白水平明显下降(图8G),这表明CCT6A可能通过激活PI3K/AKT通路影响LUAD细胞的EMT,进而影响LUAD的恶性程度和LUAD患者的预后。
四、结论
作者通过生物信息学方法构建了一个LUAD特异性lncRNA介导的ceRNA网络。然后,基于该网络的节点基因开发了一个四种基因的预后特征,在预测LUAD患者的生存和化疗反应方面表现出很高的性能。最后,对独立的预后因素进行了进一步的分析,并结合成一个执行良好的nomogram,显示出强大的临床应用潜力。