- 研究肿瘤(胃癌 ,GA)异质性
- 样本 9个肿瘤和3个非肿瘤样本,27 677 个细胞的转录组全scRNA-seq
- bulk RNA-seq 验证
思路:
- ScRNA, 质控,PCA, 聚类(tSNE/UMAP), 细胞类群鉴定。【 27 677 cells。14 clusters 最终分成 9 cell lineages】
- 提取 所有的上皮细胞epithelial cells【epithelium
(10 411 cells, 37.6%, marked with EPCAM, KRT18 and KRT8)】 - 对上皮细胞进行 再聚类(tSNE)。
- 上皮细胞良恶性鉴定【5635 malignant and 4776 non-malignant】
4.1. TCGA-STAD 数据集(tcga_RSEM_gene_tpm)+临床信息(Survival_SupplementalTable_S1_20171025_xena_sp),Tumor/Normal DEGs, Seurat::AddModuleScore, 分别计算基于top50 genes 的scores
4.2. 根据 malignant score and non-malignant score 用 k-means clustering algorithm 进行聚类, 得到Cluster1/Cluster2.
4.3. 聚类后的细胞,Cluster1/Cluster2 DEGs, 重新计算malignant score and non-malignant score
repeat 4.2, 4.3 直到结果稳定。
4.4. 分析恶性上皮与非恶行上皮中上调的基因(DEGs),并map 到tSNE上,并给出合理解释,以证明自己分对了。(作者的另一种证明方法:非肿瘤样本中的上皮细胞,有多少比例被这种方法分成非恶性细胞?96.9%)
4.5. DEGs 后的genelist 做GSEA 分析, 分析富集到的通路,并给出合理解释。
4.6. 作者还用CNV进行验证,4772/4776 的非恶性标签的细胞表现出低CNV, 但是 只有25%的恶性细胞标签表现为高CNV, 说明分离出来的非恶性较为可信,而基于CNV辨别GA的良恶性不太靠谱! - 非恶性上皮分析,作者做了拟时序分析,想要说明非恶行向恶性的转变过程。【4776 non-malignant】
5.1. 非恶性上皮再聚类,4776 cells 分成4个上皮细胞亚群【Surface cells, Chief cells,SPEM,Neck cell】
5.2. Chief cells,SPEM,Neck cell, 进行拟时序分析。 - 恶性上皮分析【5635 malignant】
6.1. 恶性上皮再聚类,5635 cells 分成5个cluster
6.2. 基于细胞分化相关的marker, 计算分化得分 differentiation score based on KRT20 and its positive-correlated genes (ie, PHGR1,MDK,CHDR2, RARRES3,GPA33,SLC5A134 and MUC13), 并将分化得分map 到tSNE上。
6.3. 做拟时序分析
6.4. TCGA STAD dataset 408 patients 做基于分化得分(high-score/low-score)的生存分析
6.5. 研究 C1,C2,C3 (classic Lauren’s histopathology types of GA)的DEGs
6.6. 分析C4
6.7. 分析C5
Conclusion:我们的研究为解释胃肿瘤的异质性提供了宝贵的资源,这将帮助提供精确的诊断和预后。
Definition of malignant and non-malignant scores
Signature genes for malignant scores were selected as the top 50 highly expressed genes (adjusted p value < 0.01) in tumour tissues (the initial step) or malignant cells (the subsequent steps).
Signature genes for non-malignant scores were selected as the top 50 highly expressed genes (adjusted p value < 0.01) in normal tissues (the initial step) or non-malignant cells (the subsequent steps).
Malignant scores and non-malignant scores were calculated using the “AddModuleScore” function in “Seruat” R package.
- AddModuleScore
library(Seurat)
AddModuleScore(object = object, features = genelist, name = "Module_Score")
其实质实际计算在每一个细胞中,感兴趣基因集表达的平均值。