人工注释细胞类型

单细胞转录组人工注释(manual annotation)是单细胞RNA测序(scRNA-seq)数据分析中的关键步骤,旨在通过生物学知识对细胞群体进行分类和功能鉴定。后续的分析都是基于以上定义结果,因此这一步非常关键。单细胞注释做的不好,对后面分析的结果会产生重要影响。

为什么需要人工注释?

  • 自动注释工具的局限性:
    尽管自动化工具(如SingleR、CellAssign)可利用参考数据库(如Human Cell Atlas)进行预测,但其准确性依赖参考数据的完整性,且难以识别新细胞类型或过渡状态。根据项目经验,自动化注释准确率大约在80%之间,一些特殊物种、组织或者质量不是很好的数据使用自动注释准确率会更低。因此,人工手动注释被认为是细胞类型注释的“金标准”。
  • 生物学背景的重要性:
    人工注释结合已知的标记基因(marker genes)和背景知识(如免疫细胞的CD标记、神经细胞的特定转录因子),并结合具体疾病类型来判断细胞类型或状态,可更灵活地验证或修正聚类结果,但是人工注释可能耗时过长,并且存在主观性。

人工注释的核心方法

基于先验知识,人工注释前我们需要知道样本中包含有哪些主要的细胞类型,需要分出那些大类,其中那些大类需要进行细分,需要分为多少亚型。比如:心脏组织应该有心肌细胞、平滑肌细胞、成纤维细胞等,PBMC中有应该有T细胞、B细胞、单核细胞、中性粒细胞等。根据不同的样本组织,选择合适的marker基因进行判断。

1、 标记基因:

  • 查阅文献相关疾病组织中报道的关键标记基因
  • 对聚类结果进行差异分析(如FindAllMarkers in Seurat)筛选聚类特异性基因,与已知细胞类型的标记基因比对(如上皮细胞的 EPCAM、T细胞的 CD3D)。
  • 数据库查找(这里例举2个比较常见的数据库)
    CellMarker
    支持物种:人类(Homo sapiens)和小鼠(Mus musculus)。
    组织/器官:覆盖158个人类组织(如心脏、肺、肝脏)和81个小鼠组织。
    细胞类型:包含数千种细胞类型及亚型(如CD4+ T细胞、肺泡上皮细胞)。
    标记基因数量:截至最新版本(如CellMarker 2.0),包含约13,605个标记基因(人类)和9,476个(小鼠)。
    PanglaoDB
    支持物种:人类(Homo sapiens)和小鼠(Mus musculus)。
    单细胞数据集:整合了来自1,000+单细胞研究的转录组数据(如10x Genomics、Smart-seq2等平台)。
    细胞类型:涵盖超过200种主要细胞类型及亚型(如神经元亚型、免疫细胞亚群)。
    标记基因数量:包含约6,000个高置信度标记基因(截至最新版本)。

注:参考基因组使用版本不同,基因名有很多别名,导致与数据不符合,可以使用GeneCards进行查看。

2、多层级注释策略:

粗注释:区分大类(如免疫细胞 vs. 非免疫细胞);
细注释:细分亚群(如CD4+ T细胞 vs. CD8+ T细胞);
验证:通过通路分析(如GO、KEGG)或实验验证(如流式细胞术)。

实例

2021年6月17日,南方医科大学 Bin Yang 研究团队在《Nature Communications》发表文章"Single-cell RNA-seq reveals fibroblast heterogeneity and increased mesenchymal fibroblasts in human fibrotic skin diseases",使用单细胞测序探究成纤维细胞的异质性和发病机制。

1、大类定义

首先对 40655 个细胞进行无偏聚类,显示 21 个细胞簇。将这21个cluster分为了大类,分别为:内皮细胞、成纤维细胞、平滑肌细胞、角质形成细胞、免疫细胞、淋巴内皮细胞、汗腺细胞、神经细胞、黑色素细胞和“未知”群。


大类定义

marker基因热图

marker基因umap图

2、细分亚群
因为成纤维细胞(fibroblasts )是纤维发病机制中最重要的细胞类群。文章对成纤维细胞进行进一步的亚群分析。对分出的不同cluster的细胞占比进行统计,也进行了富集分析,探究其细胞的特征。如有必要还可以取出其中一个群再次进行细分。


成纤维细胞亚群分析

比如张泽民课题组在把T细胞分的更细致。首先就是使用流式筛选针对CD4或者CD8的T细胞进行测序再进行后续分析。


实验方案

所有细胞分出了CD4与CD8两大类T细胞


T细胞定义

分别对CD8 T cells和CD4 T cells进行细分, 其中,CD8 T cell分出8个亚群, CD4 T cells分出了12个亚群。文章给出了各自的高表达量基因的热图、tSNE图和小提琴图。当然除此之外,我们还可以采取气泡图等其他形式进行展示。


热图

tSNE

violin

气泡图示例,非此文章中的图

文章也提供细胞亚群的生物学功能命名,以及各自的高表达量基因表格,后续相关的T细胞亚型定义可以参考这些marker基因。


image.png

参考文献

Deng CC, Hu YF, Zhu DH, Cheng Q, Gu JJ, Feng QL, Zhang LX, Xu YP, Wang D, Rong Z, Yang B. Single-cell RNA-seq reveals fibroblast heterogeneity and increased mesenchymal fibroblasts in human fibrotic skin diseases. Nat Commun. 2021 Jun 17;12(1):3709. doi: 10.1038/s41467-021-24110-y. PMID: 34140509; PMCID: PMC8211847.

Chunhong Zheng, Liangtao Zheng, Jae-Kwang Yoo, Huahu Guo, Yuanyuan Zhang, Xinyi Guo, Boxi Kang, Ruozhen Hu, Julie Y. Huang,Qiming Zhang, Zhouzerui Liu, Minghui Dong, Xueda Hu, Wenjun Ouyang, Jirun Peng, Zemin Zhang. Cell 169(7), 1342–1356( 2017). DOI: 10.1016/j.cell.2017.05.035

Zhang L, Yu X, Zheng L, Zhang Y, Li Y, Fang Q, Gao R, Kang B, Zhang Q, Huang JY, Konno H, Guo X, Ye Y, Gao S, Wang S, Hu X, Ren X, Shen Z, Ouyang W, Zhang Z. Lineage tracking reveals dynamic relationships of T cells in colorectal cancer. Nature. 2018 Dec;564(7735):268-272. doi: 10.1038/s41586-018-0694-x. Epub 2018 Oct 29. PMID: 30479382.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • """1.个性化消息: 将用户的姓名存到一个变量中,并向该用户显示一条消息。显示的消息应非常简单,如“Hello ...
    她即我命阅读 3,316评论 0 5
  • 为了让我有一个更快速、更精彩、更辉煌的成长,我将开始这段刻骨铭心的自我蜕变之旅!从今天开始,我将每天坚持阅...
    李薇帆阅读 1,959评论 0 3
  • 似乎最近一直都在路上,每次出来走的时候感受都会很不一样。 1、感恩一直遇到好心人,很幸运。在路上总是...
    时间里的花Lily阅读 1,415评论 0 2
  • 1、expected an indented block 冒号后面是要写上一定的内容的(新手容易遗忘这一点); 缩...
    庵下桃花仙阅读 550评论 0 1
  • 一、工具箱(多种工具共用一个快捷键的可同时按【Shift】加此快捷键选取)矩形、椭圆选框工具 【M】移动工具 【V...
    墨雅丫阅读 548评论 0 0