单细胞类型注释软件 Cell-ID

Institut Imagine 是法国巴黎一家专注于遗传性疾病的研究、诊疗和教学机构,是欧洲领先的遗传病研究中心之一。2016年3月,Antonio Rausell 博士加入 Imagine ,担任临床生物信息学实验室主任,他的实验室发表了一系列机器学习方法,用于对患者的临床、基因组和多组学特征中的遗传变异进行评估。实验室主页为:https://www.institutimagine.org/fr/RausellLab

1 摘要

1、目前 cell-type 主要依赖的是聚类为基础的方法,其中异质性是在细胞亚群层面,而不是单细胞层面。文章介绍了 Cell-ID , 这是一种无需聚类的多变量统计方法,可以提取单个细胞基因组层面的特征

2、文章将 Cell-ID 应用到多个人类和小鼠的项目,包括血细胞、胰岛、呼吸道和上皮细胞。文章证明, Cell-ID 提取的特征在不同个体、组织、物种中具有良好的重复性,可以跨数据集进行 cell-type 自动注释

3、Cell-ID 的作为开源的 R 包可以从以下途径安装:https://bioconductor.org/packages/release/bioc/html/CelliD.html

4、最佳实践代码为:https://bioconductor.org/packages/release/bioc/vignettes/CelliD/inst/doc/BioconductorVignette.html

2 结果

2.1 Cell-ID 方法

1、在 MCA 双重投影图中,分析距离不仅可以计算细胞之间和基因之间的距离,还可以计算每个细胞与每个基因之间的距离,以估计它们的关联(Fig1a)。因此,基因 g 与细胞 c 之间越接近,说明该基因与该细胞的特异性越强。基因与细胞之间的距离可以根据每个细胞进行排序,排名前列的基因可以被视为该细胞的独特基因标志

注:Multiple Correspondence Analysis (MCA) 是一种基于类别数据的降维技术,它通过对分类数据(如性别、年龄、运动类型等)进行处理,生成一个低维空间,使得每个样本(例如细胞、个体)和每个特征(例如基因、调查问卷的回答)都可以在该空间中有一个位置,从而揭示它们之间的关系。MCA 将通过奇异值分解(SVD)将这个矩阵降维。MCA是基于类别数据的频率表进行分析的,它分析的是不同类别之间的相关性。可以将基因表达量离散化(比如分为高、中、低等几个类别),然后才使用 MCA 来分析

2.2 MCA 表示细胞和基因的一致性

1、在 scRNA-seq 数据上,MCA 在“细胞低维结构”这一层面,与 PCA 是高度一致的;
但 MCA 额外提供了 PCA 做不到的“基因-细胞共空间表示”,如图FigS1

2、MCA 排名前列的基因在邻近细胞中显著高表达,如图 FigS2

2.3 使用 reference maker gene 列表确认 cell types

1、Cell-ID 不仅能准确给细胞“贴标签”,还能为每个细胞给出“连续、多重、可解释的身份评分”。这里用 CBMC(脐带血单核细胞)做了测试

2、Cell-ID 的预测结果:在 UMAP 上形成清晰、合理的免疫细胞簇(Fig2a);Cell-ID 相对于 AUCell/SCINA,在“跨细胞类型的整体表现”上更稳健(Fig2b)

3、Cell-ID 能在不依赖聚类、不丢失连续状态的前提下,用已知 marker 基因集,对单细胞进行稳定、可解释、可多重赋值的细胞类型预测


2.4 同一组织来源数据集之间的细胞匹配

1、Cell-ID 在数据集间的细胞匹配是通过对查询数据集中的每个细胞进行评估,来检查其是否复制了从参考数据集中提取的基因特征。参考数据集中的基因特征可以自动从单个细胞(Cell-ID(c))或从先前建立的细胞群体(Cell-ID(g),方法部分)中衍生

2、文章分析了来自多个供体的独立人类胰岛数据集,以及人类和小鼠气道上皮数据集,这些数据集涉及多种测序技术。Cell-ID 的整体性能至少与参考方法在细胞匹配和标签转移方面的性能相当(Fig3a), 并且对于低频细胞类型(<2%)也获得了显著的分数:胰岛样本中的 epsilon 细胞、组织驻留巨噬细胞、肥大细胞和内皮细胞,以及小鼠和人类气道上皮数据集中的肺神经内分泌细胞(PNECs)、刷状细胞(Fig3b)

注:
Cell-ID(c):从单个细胞(cell)中自动提取基因特征。
Cell-ID(g):从细胞群体(group,如已知细胞类型)中提取特征

2.5 不同组织来源样本之间的细胞匹配

1、文章评估了 Cell-ID 在来自不同组织来源的独立 scRNA-seq 数据集中识别同一细胞类型稀有细胞的能力,从而在不同的细胞组成背景下进行测试。基于从气道上皮细胞中获得的无偏基因特征,Cell-ID 能够在肠道上皮中以高精确度(90%)、召回率(73%)和 F1 分数(78%)识别出刷状/簇状细胞(brush/tuft cells)、内分泌细胞和杯状细胞,性能优于参考的细胞匹配方法(Fig3c,d)

2、文章使用 Cell-ID 对两个独立的嗅上皮数据集进行细胞类型扫描,对照气道和肠道上皮的刷状/簇状细胞特征,从而识别出可能的稀有孤立化学感受细胞(solitary chemosensory cells, SCCs),这是一种与刷状/簇状细胞密切相关的化学感受细胞,在原始文献中尚未被分类(Fig3e,f)

2.6 不同技术数据集的细胞匹配

1、文章评估了 Cell-ID 基因特征在采用不同单细胞组学技术的数据集之间的可重复性:来自 Tabula Muris 小鼠细胞图谱的 scRNA-seq 数据,以及来自 Mouse ATAC Atlas的单细胞 ATAC-seq 数据

2、文章对这两个专家注释的图谱进行了大规模细胞类型标签转移的基准测试,这两个图谱共同涵盖了 8 个共有组织(心脏、肾脏、肝脏、肺、骨髓、脾脏、胸腺和大肠)中的 50 种细胞类型(Fig4a,b)。Cell-ID(c) 和 Cell-ID(g) 均能在 scRNA-seq 和 sci-ATAC-seq 数据集之间以高 F1 分数匹配细胞类型,并与 SingleR一起,优于所有其他评估的参考方法(Fig4c,d)

3、Cell-ID 以自动化方式提取基因特征的能力,这些特征在不同单细胞组学技术和细胞异质性背景下表现出稳健的可重复性

3 总结

3.1 核心优势

无偏且可解释:不同于传统方法(全转录组相似性、嵌入、机器学习黑箱),Cell-ID 的基因特征完全透明,能明确指出哪些基因驱动了细胞身份识别,便于生物学解释和稀有细胞发现(如 Schwann 细胞、SCCs)

高度鲁棒性:在极多样化的测试场景(14 数据集、13 组织、20万+细胞、跨物种/技术)中表现稳定,能克服批次效应

计算高效且无需整合:无需先进行数据批次校正或降维整合,可直接多对多比较,适合大规模应用

系统性筛查潜力:可将新数据中的每个细胞自动对照已知标记库、细胞图谱或功能通路数据库,实现自动化注释,减少人工工作

4 参考文献

[1] Cortal A, Martignetti L, Six E, Rausell A. Gene signature extraction and cell identity recognition at the single-cell level with Cell-ID. Nat Biotechnol. 2021 Sep;39(9):1095-1102. doi: 10.1038/s41587-021-00896-6. Epub 2021 Apr 29. PMID: 33927417.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容