Machine learning-based identification of tumor-infiltrating immune cell-associated lncRNAs for improving outcomes and immunotherapy responses in patients with low-grade glioma
基于机器学习识别的肿瘤浸润性免疫细胞相关lncRNAs可改善low grade glioma 患者的预后和免疫治疗反应
发表期刊:Theranostics(IF :11.6)
发表时间:2022.07
(PS: 点击标题,直达文章原文)
摘要
理论基础:越来越多证据表明,lncRNA参与免疫系统的调节,并在免疫细胞亚群中表现出细胞类型特异性。鉴于肿瘤浸润淋巴细胞在有效免疫治疗的重要作用,我们探索了低级胶质瘤 (low-grade glioma, LGG) 中肿瘤浸润性免疫细胞相关lncRNA (tumor-infiltrating immune cell-associated lncRNA, TIIClncRNA) ,这一尚未被发现的问题。
方法:本研究利用了一种新的计算框架和10种机器学习算法 (101种组合) ,通过整合分析纯化免疫细胞、LGG细胞系和LGG bulk组织,筛选出TIIClncRNAs。
结果:基于16个最有效的TIIClncRNA建立了TIIClnc特征,可以在公共数据集和湘雅内部数据集中非常有效地预测结果,优于已发表的95个特征性能。TIIClnc特征与免疫特性密切相关,包括微卫星不稳定性、肿瘤突变负担和干扰素γ,并表现出更活跃的免疫过程。此外,TIIClnc特征在多种癌症类型的多个数据集中预测了更好的免疫治疗应答。值得注意的是,在湘雅的内部数据集中,TIIClnc特征与CD8、PD-1和PD-L1之间的正相关性得到了验证。
结论:TIIClnc特征能够更精确地识别出LGG患者中免疫治疗的潜在受益者。
关键词:免疫治疗,LGG,lncRNA,免疫检查点,immune infiltration
workflow
TIIClnc特征筛选方法
- 在免疫细胞(GEO数据集)里找15%高表达的lncRNA
- 计算组织特异性评分 (tissue specificity index, TSI),找在每种免疫亚型特异表达的lncRNA作为候选免疫相关lncRNA
- 与LGG细胞(CCLE数据库)内的lncRNA做差异表达分析,找在免疫细胞高表达、LGG低表达的候选免疫相关lncRNA
- 对step3得到的lncRNA做多因素cox回归分析,找具有预后效能的TIIClncRNA (TCGA数据库)
- 用多种机器学习的不同组合 (101种) 对step4得到的TIIClncRNA进行建模,10折交叉验证,寻找预测效果最好 (c-index最大) 的模型 (CoxBoost + RSF),和最有价值的TIIClncRNA特征
- 用step5得到的模型及特征进行通路分析、生存分析等,并与近10年内发表的glioma相关的特征相比较,评价该模型的优越性。
GEO数据集:GSE27291, GSE27838, GSE28490, GSE13906, GSE23371, GSE25320, GSE28698, GSE28726, GSE49910, GSE51540, GSE59237, GSE37750, GSE39889, GSE42058, GSE6863, GSE8059
CCLE数据库:depmap.org
TCGA数据库:GDC (cancer.gov)
机器学习方法:
- random survival forest (RSF)
- elastic network (Enet)
- Lasso
- Ridge, stepwise Cox
- CoxBoost
- partial least squares regression for Cox (plsRcox)
- supervised principal components (SuperPC)
- generalized boosted regression modeling (GBM)
- survival support vector machine (survival-SVM)
所有组合如下图