生信小课堂,全网同名!
影响因子:9.029
本文建模方式比较普通,效果也一般。机器学习目前在肿瘤和非肿瘤生信中越来越常见,不管是构建模型还是筛选关键基因,都有很出色的发挥。想做类似分析的朋友,欢迎交流!
研究概述:
中心体扩增是多种恶性肿瘤发生和发展的一个公认的致癌驱动因素,并与肿瘤的侵袭性、转移和不良预后有关。本研究通过研究肝癌组织和邻近非肿瘤组织之间差异表达基因的功能富集,初步证实了中心体扩增在HCC中的关键作用。随后鉴定了134个中心体扩增相关基因(CARGs),这些基因在HCC中过表达并与不良预后有关。此外构建了一个6-CARGs签名,在HCC患者的诊断和预后中表现良好。
研究结果:
一、中心体扩增可能促进肝细胞癌的发展
1. 图1a,使用R包“limma”在TCGA数据库中370个HCC肿瘤组织和50个相邻配对非肿瘤组织之间鉴定出7847个上调基因和1035个下调基因。
2. 通过单变量Cox回归分析和命名预后相关基因(PRGs),4770个上调基因与HCC患者的不良预后相关,对这些上调的DEG进行了基因本体(GO)富集分析(图1b),它们大量位于中心粒,并映射到与中心体扩增相关的途径。
二、构建和验证HCC中心体扩增相关基因预后特征
1. 从GO和KEGG基因集中收集了CARGs,用维恩图对653个CARGs,7847个上调DEGs和4770个PRGs进行可视化和交叉,筛选出134个关键CARG(图1 c),与HCC患者的癌变和不良预后密切相关。
2. 主成分分析(PCA)进一步证明,通过134个CARGs的表达可以很好地区分非肿瘤和肿瘤样本(图1d)。
3. 将这134个CARGs纳入lasso惩罚Cox回归分析,建立6基因预后模型(图2a, b)。
4. 在TCGA-LIHC和ICGC-LIRI队列中,与配对的邻近非肿瘤组织相比,包括SSX2IP、SPAG4、SAC3D1、NPM1、CSNK1D和CEP55在内的6个基因在HCC组织中表达上调(图S2a, b)。同时全基因组单变异分析显示,这些基因的改变频率非常低(< 2%),说明基因组结构变异不太可能是HCC中CARGs激活的机制(图S2c, d)。
5. 图S2e, f评估了CARGs启动子序列的DNA甲基化水平。与正常组织相比,6个CARGs中的4个(SSX2IP、SPAG4、SAC3D1和CSNK1D)在肿瘤中显示出较低的启动子周围DNA甲基化水平,意味着表观遗传激活可能是HCC中CARGs异常表达的原因。
6. 计算TCGA-LIHC数据集中每个样本的6个基因表达风险评分,并使用X-tile图定义风险评分的最佳临界值0.9672,将370例患者分为高危组(187例)和低危组(183例)。热图(图2c)表示高危组中SSX2IP、SPAG4、SAC3D1、NPM1、CSNK1D和CEP55的表达水平较高。
散点图(图2d)表明个体得分越高, OS越差。
Kaplan-Meier曲线和log-rank检验(图2 e)也表明,高危组患者的OS明显差于低危组。
时间依赖的受试者工作特征(ROC)曲线(图2f)中1年、3年和5年生存率的ROC曲线下面积(AUC)值分别为0.772、0.691和0.657,表明该预后标记在预测OS方面具有很高的敏感性和特异性。
7.另一个独立的ICGC-LIRI数据集验证了6基因预后特征(图2g, h)。根据TCGA队列的截止风险评分,将250例HCC患者分为高危组和低危组。结果一致的是,与低风险组相比高危组HCC患者的死亡率更高,生存率更差。预测1、3和5年OS的AUC评分分别为0.741、0.787和0.712(图2i)。总之该6基因预后特征可以良好地预测HCC生存结果。
8. 为进一步临床应用,采用RNA-seq方法检测6个基因在HCC组织中的mRNA表达水平,并使用公式计算每位患者的风险评分。风险评分小于0.9672的HCC患者为预后好(低风险),大于等于0.9672的HCC患者为预后差(高风险)。
三、中心体扩增相关的预后特征是HCC的独立预后因素
1. 为寻找肝癌患者的独立预后因素,将中心体扩增相关风险评分和临床特征纳入单因素和多变量Cox回归分析。
2. 单因素Cox回归分析显示,病理分期,T分期,M分期和风险评分是TCGA队列的预后因素(图2j)。这四个变量被输入到多元Cox回归分析中,图2k可见风险评分是肝细胞癌患者OS的独立预后因素。
3. 更重要的是,作者通过权衡病理分期、T分期、M分期和风险评分,建立了临床预后列线图以预测HCC患者的1年、3年和5年OS。例如,阶段2(52分),T2(54分),M0(50分)和高风险(51分)的个体将获得207分的高分,并且1年、3年、5年生存率分别为75.2%、55.8%、44.9%(图S3a)。
4. 图S3b利用标定曲线对基于模态图的预测模型进行评价。校准曲线非常接近对角线45度线,表明列线图预测的生存概率与TCGA-LIHC队列中观察到的生存概率之间具有良好的一致性。
四、中心体扩增相关基因特征是HCC的潜在诊断生物标志物,特别是晚期HCC
1. 中心体扩增相关的风险评分随肿瘤分期而增加,但不随癌前病变(如纤维化、肝硬化和增生)而增加,提示肝细胞癌可能存在一种新的生物标志物(图3a)。
2. 图3b使用ROC分析:风险评分在区分HCC和正常样本方面远远优于AFP,敏感性为85.2%,特异性为100%;同样,在区分HCC患者和癌前病变方面,风险评分优于AFP (图3c),风险评分诊断模型的敏感性为90%,特异性为85.2%。
3. (图3d)风险评分还有中度区分晚期(T2/T3)和早期(T1) HCC患者的能力。
五、晚期HCC患者的高CARGs风险评分与临床病理特征相关
1. PCA算法(图4a, b)表明,CARGs的预后特征可区分TCGA组和ICGC组的高危患者和低危患者。卡方检验和Fisher精确检验(图4c-f)表明,高危组中携带肿瘤的患者更多(24.8% vs.17.9%),高危组的死亡率更高(21.6% vs.13.5%),复发率更高(27.6% vs.21.1%),AFP表达水平更高(16.2% vs.6.9%)。
2. 图4g-i显示高危组与晚期(T2为16.1% vs. 9%, T3为13.1% vs. 8.7%, T4为2.2% vs. 1.4%)、较高的组织学分级(G3为22.7% vs. 10.4%, G4为3% vs. 0.3%)、较高的肿瘤侵袭性(大血管侵袭为3.5% vs. 1.6%,微血管侵袭为16.6% vs. 12.7%)显著相关。
3. 图4可见在高危组中,亚洲人群(25.1% vs. 18.7%)和非洲人群(3.1% vs. 1.7%)的比例更高。相反,在诊断年龄、性别、纤维化ishak评分、Child-pugh分级或病因学(HBV和HCV)方面,高危组和低危组之间没有统计学差异。
六、功能分析显示CARGs特征与细胞周期进程之间存在很强的关联
1. 图5a 为GSVA-KEGG结果的热图,与细胞周期和DNA修复相关的途径在高危组中显著富集;而涉及代谢的途径在低危组显著富集。
2. GSVA-HALLMARK富集分析(图5b)还显示了细胞周期相关通路的显著丰度,与GSVA-KEGG的结果一致,意味着高危组的细胞周期进程增强。值得注意的是,与癌症相关的信号通路在高危组比低危组更活跃,如PI3K/AKT/mTOR、mTORC1、Wnt/β-catenin和TGF-β信号。
3. 图5c :TP53作为细胞周期的关键调控因子,在高危组的突变率高于低危组(40% vs. 11%)。高危组TP53突变多数为错义突变,消除了其细胞周期抑制特性,获得了致癌功能,为高危组细胞周期过度活跃的潜在机制提供了线索。
4. 图5d:一致的是,高危组患者对Nutlin 3a(一种破坏p53/MDM2以稳定野生型p53并触发细胞周期阻滞的药物)的IC50值明显更高。
同时,高危组患者对其他细胞周期阻滞药物如PD0332991 (CDK4/6抑制剂)和罗斯科维汀(Cdc2/CDK2/CDK5抑制剂)的耐药性似乎也更强(图5e)。
七、CARGs特征与肿瘤微环境的相关性分析
1. ESTIMATE分析显示高危组肿瘤纯度较高(图6a), 而基质评分和ESTIMATE评分则相反(图6b, c)。高危组免疫评分虽无统计学意义,但呈下降趋势(图6d)。
2. ssGSEA分析(图6e)显示,多种抗致瘤性免疫细胞类型的比例在高危组中显著降低,相反,免疫抑制性CD4+ 2型T辅助细胞(Th2)和总CD4+ T细胞在高危组大量富集。
3. 肿瘤免疫功能障碍和排斥(Tumor Immune Dysfunction and Exclusion, TIDE)是预测ICB反应的计算方法。使用TIDE工具(图6f)来评估ICB在不同危险人群中的潜在临床疗效:高危组TIDE评分明显升高,说明高危组患者对ICB的反应较低危组差;同时,高危组T细胞排斥和免疫抑制评分(MDSC、TAM和CD274)较高(图6g-j),而高危组间质评分(CAF)(图6k)、T细胞功能障碍评分(图6l)和微卫星不稳定性(MSI)评分(图6m)较低。
4. 上述数据表明,中心体扩增相关基因标记可能有助于通过调节免疫检查点分子和细胞因子的表达谱来指导HCC患者免疫抑制微环境的发展。
八、化疗反应预测和 CARG 风险评分
1. 研究表明肿瘤起始细胞(TIC)或癌症干细胞(CSC),具有干细胞样特征以逃避免疫监视,并对目前的治疗具有抗性。散点图和回归分析(图7a)显示风险评分与RNA干评分(RNASS)显著正相关。CARGs风险评分(图7b)也显示出与癌症干细胞标志物如CD24的高度相关性。
2. 确定生物标志物来预测HCC患者对TACE和索拉非尼的敏感性是一个迫切的临床问题,图7c, d显示对TACE或索拉非尼无反应的HCC患者的风险评分明显更高。
3. 利用来自癌症基因组计划(CGP)数据库的细胞系数据,预测不同风险组HCC患者常用化疗方案的IC50。低风险组的IC50估计值明显较低(图7e,f):PD0325901(米达美替尼,MEK抑制剂)、AZD6244(司鲁美替尼,MEK抑制剂)、RDEA119(瑞法替尼,MEK抑制剂)、AKT.inhibitor.VIII(PI3K/Akt抑制剂)、AMG.706(VEGFR1/2/3抑制剂)、AZD.0530(Src抑制剂)和AS601245(JNK抑制剂),表明这些药物对CARGs风险评分低的患者有潜在益处。
4. 相反,图7g在高危组中观察到顺铂、吉西他滨、紫杉醇和甲氨蝶呤的IC50值较低,表明这些患者似乎对含有这些药物的化疗方案更敏感。
九、SSX2IP和SAC3D1可能是肝癌干细胞的新型生物标志物
1. 对18个样本(GSE149614)进行单细胞RNA测序(scRNA-seq)分析,以研究CARGs在肝肿瘤微环境中的表达谱。
2. 经质控过滤,获得10例原发性肝肿瘤细胞30,489个,8例非肿瘤肝组织细胞28,258个。对这些细胞进行合并、聚类和注释,最后根据细胞类型特异性标记基因,将这些细胞定位为T细胞、巨噬细胞、内皮细胞(内皮细胞)、肝癌干细胞样细胞(ICSC样细胞)、NK细胞(NK)、成纤维细胞、浆细胞、B细胞、肝细胞和肥大细胞(图8a、b)。
2. 图8c显示肿瘤组织和非肿瘤组织的细胞类型差异很大。在肿瘤中,ICSC样细胞显著增加(图8d)而T细胞和NK细胞显著减少,同时也观察到B细胞减少和成纤维细胞增强的小趋势。
3. 在六个中心体扩增相关基因的表达图谱(图8e)中可见,NPM1和CSNK1D在几乎所有集群中都广泛表达,表明它们在细胞活力中起着重要作用。CEP55和SPAG4在浆细胞和ICSC样细胞中高表达。SSX2IP和SAC3D1在ICSC样细胞中特异性表达,可能是肝癌干细胞的新生物标志物。
4. 通过降维将ICSC样细胞分为16个亚群(图9a),其中大多数是肿瘤组织特异性的(图9b)。图9c-e展示 SSX2IP和SAC3D1在LCSC(3)、LCSC(4)、LCSC(7)、LCSC(10)和LCSC(15)中高表达。
5. 特异性基因的功能富集分析(图9f)显示:
LCSC(3)与血管生成、上皮间充质转化和Myc靶点相关的癌症大厅标志物富集。
LCSC(4)表现出主要参与氧化磷酸化、MTORC1信号和hedgehog信号的基因特征。
LCSC(10)中上调的基因主要介导缺氧和ERBB信号。
LCSC(7)和LCSC(15)在有丝分裂纺锤体、细胞周期、DNA复制、G2M检查点、E2F和notch通路中显示出突出的信号。
6. 此外,LCSC(7)和LCSC(15)表达相对较高水平的细胞周期相关基因(CDK1和BIRC5)以及细胞增殖标记基因MKI67(图9e)。因此,SSX2IP和SAC3D1可能参与了肝癌干细胞的细胞周期进程和缺氧反应。
研究总结:
本研究首次对HCC中的中心体扩增进行了系统分析,提供了中心体扩增与临床特征、肿瘤微环境和临床药物反应的直接分子联系,构建了由SSX2IP、SPAG4、SAC3D1、NPM1、CSNK1D和CEP55组成的中心体扩增相关基因预测特征,突出了中心体扩增在肝癌发展和治疗耐药中的关键作用,为肝癌的预后预测和治疗反应提供了有价值的见解。
此外,SSX2IP和SAC3D1在肝癌干细胞样细胞中的特别表达表明了它们作为LCSC生物标志物的潜在作用,有助于加速新型干预措施的开发。