摘要
目的:鉴定与急性髓性白血病(AML)中的肿瘤微环境(TME)相关的预后价值基因。
方法和材料:从癌症基因组图谱(TCGA)数据库下载了3级AML患者基因转录组图谱。临床特征和生存数据是从基因组数据共享(GDC)工具中提取的。然后,将limma软件包用于规范化处理。ESTIMATE算法用于计算免疫,基质和ESTIMATE得分。我们在癌症和急性白血病B组(CALGB)细胞遗传学风险类别中检查了这些分数的分布。Kaplan-Meier(KM)曲线用于评估免疫评分,基质评分,ESTTIMATE评分与总生存率之间的关系。我们进行了聚类分析,并使用热图,火山图和维恩图筛选了差异表达基因(DEG)。经过途径富集分析和基因组富集分析(GESA),构建了蛋白质-蛋白质相互作用(PPI)网络并筛选了关键基因。我们通过计算风险评分(RS)和处理生存率分析来探索中心基因的预后价值。最后,我们在Vizome数据库中验证了表达水平,整体存活率的关联以及轮毂基因的基因相互作用。
结果:我们在研究中从TCGA数据库中收集了173个AML样本。较高的免
疫评分与CALGB细胞遗传学风险类别中较高的风险等级相关(P = 0.0396)和较差的总体生存结果(P = 0.0224)。在维恩图中,通过差异分析筛选了827个相交基因。功能富集聚类分析揭示了交叉基因和免疫反应之间的重大关联。通过PPI网络后,鉴定了18个TME相关的中枢基因。RS的计算和生存分析结果表明,高RS与整体生存差有关(P<0.0001)。此外,生存接收器的工作特性曲线(ROC)表现出优越的预测精度(曲线下的面积= 0.725)。最后,来自Vizome数据库的热图证明18个中枢基因在患者样品中显示出高表达。
结论:我们从TCGA数据库中鉴定了18个TME相关基因,这些基因与AML患者的总生存率显着相关。
方法与材料
数据采集
收集了癌症基因组图谱(TCGA)数据库(https://portal.gdc.cancer.gov/)中AML患者的基因转录组谱。我们在样本代码中加入了以“ -03”结尾的样本数据,这意味着这些数据属于“原发性癌症-外周血”。AML Multiforme的RNA表达是从IlluminaHiSeq(版本:2017-10-13)获得的。之后,我们通过TCGA通过Genomic Data Commons(GDC)工具下载了生存数据。提取性别,癌症和急性白血病B组(CALGB)的细胞遗传学风险类别和生存条件。我们排除了未以“ −03”结尾的AML样本以及存活和临床信息不完整的样本。我们使用limma包进行归一化处理。使用ESTIMATE算法计算免疫,基质和ESTIMATE得分。
相关分析和生存分析
进行了普通的单方差分析,以显示免疫评分,基质评分,ESTIMATE评分和CALGB细胞遗传学风险类别之间的关联。我们使用KM曲线来评估免疫评分,基质评分,估计评分和总体生存率之间的关系。P <0.05被认为具有统计学意义。
热图,聚类分析和差异表达基因
我们将免疫评分和基质评分按中位数分为高组和低组。我们设置| log(FC)| > 1且假发现率(FDR)<0.05作为用于转录组数据标准化的limma软件包的标准。要表达差异表达基因(DEG)筛选和聚类分析的结果,| log(FC)| 在执行热图时设置为> 1,FDR <0.05;| log2FC | 在基于pheatmap程序包,ggplot2程序包和聚类分析的火山图绘制中,将设置为= 1。之后,通过基于VennDiagram软件包的Venn图在免疫评分和基质评分中筛选相交的DEG
差异表达基因的富集分析和基因组富集分析
用于注释,可视化和集成发现的数据库(DAVID,https://david.ncifcrf.gov/)用于通过生物过程(BP),细胞成分(CC)和生物过程构建基因本体(GO)分析。分子功能(MF)。另外,基于org.Hs.eg.db软件包,clusterProfiler,org.Hs.eg.db,richplot和ggplot2软件包执行q <0.05 的KEGG。在FDR <0.25,|富集分数|> 0.35,基因大小≥35的基因集富集分析(GSEA)中,我们选择“ c2.cp.kegg.v6.2.symbols.gmt基因集”作为基因集数据库和“Illumina_Human.chip”作为芯片平台
蛋白质-蛋白质相互作用网络和hub基因
蛋白质-蛋白质相互作用(PPI)网络结构与最小所需相互作用分值= 0.9所依据的STRING数据库(版本11.0)和Cytoscape的软件(版本3.7.1)。
生存曲线和风险评分
我们基于对数秩检验通过KM分析评估了预后价值。P <0.05被认为具有统计学意义。根据多变量Cox回归分析,为每位AML患者计算出风险评分(RS),然后,根据中位RS将患者分为高风险和低风险组。此外,KM曲线用于探索不同RS水平与总生存率之间的关联。绘制生存接受者工作特征曲线(ROC)并计算该曲线下的面积(AUC)以评估预后值
Vizome数据库分析
Vizome是最大的AML数据库,其中包含从562名患者中收集的672个肿瘤标本的队列。我们验证了基因组数据库中的表达水平,整体存活率的关联以及hub基因的基因相互作用。
统计分析
IBM SPSS Statistics 20.0已应用于多元Cox回归分析和KM分析。使用R软件(3.5.2版)进行统计分析。P <0.05表示具有统计学意义。
结果
免疫评分与CALGB细胞遗传学风险类别和生存结果相关