单细胞转录组人工注释(manual annotation)是单细胞RNA测序(scRNA-seq)数据分析中的关键步骤,旨在通过生物学知识对细胞群体进行分类和功能鉴定。后续的分析都是基于以上定义结果,因此这一步非常关键。单细胞注释做的不好,对后面分析的结果会产生重要影响。
为什么需要人工注释?
- 自动注释工具的局限性:
尽管自动化工具(如SingleR、CellAssign)可利用参考数据库(如Human Cell Atlas)进行预测,但其准确性依赖参考数据的完整性,且难以识别新细胞类型或过渡状态。根据项目经验,自动化注释准确率大约在80%之间,一些特殊物种、组织或者质量不是很好的数据使用自动注释准确率会更低。因此,人工手动注释被认为是细胞类型注释的“金标准”。 - 生物学背景的重要性:
人工注释结合已知的标记基因(marker genes)和背景知识(如免疫细胞的CD标记、神经细胞的特定转录因子),并结合具体疾病类型来判断细胞类型或状态,可更灵活地验证或修正聚类结果,但是人工注释可能耗时过长,并且存在主观性。
人工注释的核心方法
基于先验知识,人工注释前我们需要知道样本中包含有哪些主要的细胞类型,需要分出那些大类,其中那些大类需要进行细分,需要分为多少亚型。比如:心脏组织应该有心肌细胞、平滑肌细胞、成纤维细胞等,PBMC中有应该有T细胞、B细胞、单核细胞、中性粒细胞等。根据不同的样本组织,选择合适的marker基因进行判断。
1、 标记基因:
- 查阅文献相关疾病组织中报道的关键标记基因
- 对聚类结果进行差异分析(如FindAllMarkers in Seurat)筛选聚类特异性基因,与已知细胞类型的标记基因比对(如上皮细胞的 EPCAM、T细胞的 CD3D)。
- 数据库查找(这里例举2个比较常见的数据库)
CellMarker
支持物种:人类(Homo sapiens)和小鼠(Mus musculus)。
组织/器官:覆盖158个人类组织(如心脏、肺、肝脏)和81个小鼠组织。
细胞类型:包含数千种细胞类型及亚型(如CD4+ T细胞、肺泡上皮细胞)。
标记基因数量:截至最新版本(如CellMarker 2.0),包含约13,605个标记基因(人类)和9,476个(小鼠)。
PanglaoDB
支持物种:人类(Homo sapiens)和小鼠(Mus musculus)。
单细胞数据集:整合了来自1,000+单细胞研究的转录组数据(如10x Genomics、Smart-seq2等平台)。
细胞类型:涵盖超过200种主要细胞类型及亚型(如神经元亚型、免疫细胞亚群)。
标记基因数量:包含约6,000个高置信度标记基因(截至最新版本)。
注:参考基因组使用版本不同,基因名有很多别名,导致与数据不符合,可以使用GeneCards进行查看。
2、多层级注释策略:
粗注释:区分大类(如免疫细胞 vs. 非免疫细胞);
细注释:细分亚群(如CD4+ T细胞 vs. CD8+ T细胞);
验证:通过通路分析(如GO、KEGG)或实验验证(如流式细胞术)。
实例
2021年6月17日,南方医科大学 Bin Yang 研究团队在《Nature Communications》发表文章"Single-cell RNA-seq reveals fibroblast heterogeneity and increased mesenchymal fibroblasts in human fibrotic skin diseases",使用单细胞测序探究成纤维细胞的异质性和发病机制。
1、大类定义
首先对 40655 个细胞进行无偏聚类,显示 21 个细胞簇。将这21个cluster分为了大类,分别为:内皮细胞、成纤维细胞、平滑肌细胞、角质形成细胞、免疫细胞、淋巴内皮细胞、汗腺细胞、神经细胞、黑色素细胞和“未知”群。
2、细分亚群
因为成纤维细胞(fibroblasts )是纤维发病机制中最重要的细胞类群。文章对成纤维细胞进行进一步的亚群分析。对分出的不同cluster的细胞占比进行统计,也进行了富集分析,探究其细胞的特征。如有必要还可以取出其中一个群再次进行细分。
比如张泽民课题组在把T细胞分的更细致。首先就是使用流式筛选针对CD4或者CD8的T细胞进行测序再进行后续分析。
所有细胞分出了CD4与CD8两大类T细胞
分别对CD8 T cells和CD4 T cells进行细分, 其中,CD8 T cell分出8个亚群, CD4 T cells分出了12个亚群。文章给出了各自的高表达量基因的热图、tSNE图和小提琴图。当然除此之外,我们还可以采取气泡图等其他形式进行展示。
文章也提供细胞亚群的生物学功能命名,以及各自的高表达量基因表格,后续相关的T细胞亚型定义可以参考这些marker基因。
参考文献
Deng CC, Hu YF, Zhu DH, Cheng Q, Gu JJ, Feng QL, Zhang LX, Xu YP, Wang D, Rong Z, Yang B. Single-cell RNA-seq reveals fibroblast heterogeneity and increased mesenchymal fibroblasts in human fibrotic skin diseases. Nat Commun. 2021 Jun 17;12(1):3709. doi: 10.1038/s41467-021-24110-y. PMID: 34140509; PMCID: PMC8211847.
Chunhong Zheng, Liangtao Zheng, Jae-Kwang Yoo, Huahu Guo, Yuanyuan Zhang, Xinyi Guo, Boxi Kang, Ruozhen Hu, Julie Y. Huang,Qiming Zhang, Zhouzerui Liu, Minghui Dong, Xueda Hu, Wenjun Ouyang, Jirun Peng, Zemin Zhang. Cell 169(7), 1342–1356( 2017). DOI: 10.1016/j.cell.2017.05.035
Zhang L, Yu X, Zheng L, Zhang Y, Li Y, Fang Q, Gao R, Kang B, Zhang Q, Huang JY, Konno H, Guo X, Ye Y, Gao S, Wang S, Hu X, Ren X, Shen Z, Ouyang W, Zhang Z. Lineage tracking reveals dynamic relationships of T cells in colorectal cancer. Nature. 2018 Dec;564(7735):268-272. doi: 10.1038/s41586-018-0694-x. Epub 2018 Oct 29. PMID: 30479382.