发表杂志:Biological Procedures Online
影响因子:7.71
生信分析咨询 请关注“生信小课堂”全网同名
研究背景:
结直肠癌(CRC)是全球癌症相关死亡的主要原因之一。单细胞转录组测序可以为单个细胞提供准确的基因表达数据。大批量转录组测序(bulk RNA-seq)已经成为一种识别新的分子生物标志物和提高我们对肿瘤发展了解的强大技术。为了全面识别CRC基因治疗的预测生物标志物和新的分子靶点,利用bulk RNA-seq和scRNA-seq分析可以精确地对患者进行分层和识别。通过整合scRNA-seq和bulk RNA-seq数据,构建CRC患者的预后模型并验证了该模型预测CRC预后的能力。
研究结果:
一、CRC单细胞测序数据的降维聚类分析
1、tsne图所示,scRNA-seq数据整合为13个样本(图1A),4位患者数据(图1B)和肿瘤类型(图1C)也整合在其中。
2、使用FindCluster()函数对单元格进行聚类,得到20个聚类(图1D)。)并从20个聚类中分类出7种细胞类型(图1E)。
3、各亚群中最显著的前5个标记基因的表达量在图1F中显示。
4、选取前三个标记基因绘制小提琴图(图2A),通过WebGestaltR包进行KEGG注释,在这5个聚类中筛选FDR < 0.05的关键通路(图2B)。
二、基于TCGA数据库的细胞簇丰度预测与分析
1、使用CIBERSORT 评估20个cluster在TCGA数据中的含量。结肠癌患者肿瘤组织中C1、C2、C4、C5、C15、C16和C19的丰度较高,C7、C10、C11、C13、C14和C17的丰度较低(图3A)。
2、生存分析结果表明,C4、C11和C13丰度高,C5和C14丰度低意味着更好的存活率(图3B)。
3、对所有配对基因进行Pearson相关性分析,并使用WGCNA构建加权共表达网络(图4A)。
4、在本研究中,共表达网络符合无标度网络,选择β=12以确保网络无标度(图4B)。
5、对模块进行聚类分析,并将距离较近的模块合并为一个新模块,共获得12个模块(图4C),进一步分析了各模块与丰度的相关性,红色模块与肿瘤和C14簇最相关(图4D)。
6、在GO富集分析中,生物过程(BP)差异显著的基因本体共有237个,前10个如图5A所示。共有122个基因在细胞组分(CCs)上有显著差异,前10个如图5B所示。59个基因本体论在分子功能(MF)上有显著差异,前10位如图5C所示。
7、对这些基因进行KEGG信号通路富集分析,28条通路被显著注释,前10位如图5D所示。这些注释结果表明,这些基因与肿瘤发生密切相关。
三、关键的簇细胞通讯分析
1、在这20个簇中,就配体受体相互作用的数量和强度而言,细胞与细胞之间存在较高的相关性(图6A)。
2、C14簇会被其他簇所影响,如C13和C16簇通过MDK-SDC2影响C14(图6B)。
四、预后风险模型的构建与评价
1、选择red模块中的615个基因构建预后模型。使用glmnet包进行Lasso Cox回归分析和观察各自变量的变化轨迹(图7A)。使用十折交叉验证来构建每个lambda下的模型和置信区间(图7B)。当λ =0.0175时,模型最优,选取8个基因构建风险模型
2、风险评估模型预测1、3、5年生存率的AUC分别为0.72、0.70、0.65(图7C),TCGA数据库中风险评分高的患者OS明显差于风险评分低的患者(图7D)。
3、风险模型预测1、3、5年生存率的AUC分别为0.79、0.83、0.69,GSE17537数据集中高危组预后较差(图7E和F)。
4、该模型可根据T分期、M分期、N分期、分期、年龄和癌症状态显著区分高危和低危组(图7G)。
五、低危组与高危组间GSVA及TMB分析(风险评分与临床应用的关系)
1、进一步计算生物功能与风险评分之间的相关性,选择相关性大于0.4的部分(图8A)。
2、风险评分组富集分析显示,与样本风险评分负相关的途径有8条,与样本风险评分正相关的途径有32条。基于40条KEGG通路进行富集评分聚类分析结果显示,RENAL_CELL_CARCINOMA等相关通路的表达随着风险评分的增加而增加(图8B)。
六、构建整合风险评分和临床特征的诺模图
1、使用单变量,评估8基因模型的临床应用的独立性(图8C)。使用多变量,Cox回归分析临床信息和风险评分(图8D)。
2、根据单因素和多因素分析结果,构建了具有临床特征(M分期和风险评分)的诺模模型(图8E)。
3、生存期中1、3、5年的诺模校正曲线与标准曲线呈现几乎相同的结果(图8F)。
4、利用决策曲线分析(DCA)来评估模型的可靠性。DCA图的结果表明,诺模模型比其他的评价效果更好(图8G)。
七、既往未报道的模型基因MPZ、SCARA3、MPP2和PBXIP1在结直肠癌中的表达及功能分析
1、通过qPCR 检测了既往未报道的CRC患者临床样本中模型基因(MPZ, SCARA3, MPP2和PBXIP1)的表达情况(图9A-D)。
2、免疫组化IHC分析显示,MPZ、SCARA3、MPP2、PBXIP1在CRC组织中表达水平较高(图9E-H)。
3、通过抑制MPZ、SCARA3、MPP2和PBXIP1的表达抑制SW620细胞体外集落形成能力(图10A),且能抑制小鼠体内致瘤性(图10B-C)。
4、对移植瘤组织进行免疫组化分析发现,SW620/sh-MPZ、SW620/sh-SCARA3、SW620/sh-MPP2和SW620/sh-PBXIP1组的MPZ、SCARA3、MPP2和PBXIP1表达水平较低(图10D)。
研究总结:作者通过scRNA-seq和bulk RNA-seq数据,并进行WGCNA分析,这是一种新的预测CRC患者OS的预后模型,可用于预测CRC患者的生存率。作者还探索了4个此前未报道的基因(MPZ、SCARA3、MPP2和PBXIP1)的作用,这些基因可能在未来成为CRC的新的治疗靶点。