Tutorial | 单细胞转录组数据【细胞注释指南】

细胞注释是单细胞转录组分析的重要环节,来自加拿大的研究人员在《Nature protocols》发表细胞注释教程综述,介绍了单细胞转录组数据分析中细胞注释的一般工作流程,涵盖可用于每个步骤的软件工具和资源的指导原则和具体建议。


此篇教程建议的细胞注释分析流程主要有三个步骤:自动注释、手动注释和验证。


步骤1:自动注释

自动注释是使用算法和适当的先验生物学知识标记细胞或细胞簇的有效方法。一般原则是识别单个细胞或细胞簇中与已知细胞类型或状态的特征基因表达特征相匹配的基因表达信号(模式或特征);然后为细胞或细胞簇分配相应的标签,标签通常有一个相关的置信度得分。

有两种主要的自动注释方法:一种是使用已知的标记基因,标记基因和细胞类型之间的已知关系可从数据库中获得,如SCSig、PanglaoDB和CellMarker,或从文献中手动获得。第二种方法是将需要注释的scRNA-seq数据("查询 "数据集)与现有的、类似的、经过专业注释的scRNA-seq数据集("参考 "数据集)进行比较,"参考 "数据集来源于GEO、单细胞表达图谱或细胞图谱项目等。

基于标记的自动注释方法

> 为了标记单个细胞,最可靠的基于标记的注释工具之一是半监督类别识别和分配(SCINA)。

> AUCell是另一种很好的基于标记的标记方法,可以对单个细胞或簇进行分类。

> 为了标记整个聚类,基因集变异分析(GSVA)已被证明是快速可靠的。

优点:基于标记的自动注释方法只将标签分配给与已知标记相关联的细胞,而其他细胞将保持未标记状态。

潜在问题:不是所有细胞类型都容易获得标记基因;可能导致细胞标签冲突或缺失。

解决策略:需要专业研究扩展标记列表


基于参考数据集的自动注释方法

scmap是基于参考数据集的自动细胞或细胞簇注释的最佳工具之一,它既能保证指定标签的准确性,又能避免对新细胞类型的错误标记。其他工具包括SingleCellNet和SingleR

基于参考数据集的自动注释方法总结


基准研究显示,自动注释工具的性能各不相同,取决于数据集和要注释的细胞类型基因表达谱的独特性。当对一个数据集应用多种细胞注释方法时,细胞或细胞簇会获得多个,有时是相互冲突的细胞类型标签。如果存在冲突,大多数工具提供的标签置信度分数可以用来识别一个单一的高分标签。然而,不同工具之间的置信度分数并不统一,所以它们通常不具有可比性。冲突也可以通过多数规则的方法来解决,即选择最频繁的标签等。如果不能有把握地决定任何标签,则必须对细胞或群组进行人工注释。

从自动注释中优化簇标签


步骤2:人工注释

在人工注释中,使用各种资源对细胞进行人工检查,以获得其功能的线索,这与基于标记的自动注释的原则相同。专业的人工注释通常被认为是细胞注释的金标准;然而,其是缓慢和劳动密集型的工作,而且可能是主观的。

如果没有进行自动注释,应首先手动应用基于标记的注释。常使用的查看标记基因表达的图有tNSE、UMAP 和热图等,如果一个已知细胞类型的许多标记基因在一个簇中的细胞中高度表达,这往往足以支持它被标记为该细胞类型。易于使用的软件,如免费的Loupe Cell Browser for 10x Genomics scRNA seq data,支持这种可视化和分析过程。这种方法面临的挑战是,已知标记的数量通常太少,无法完全注释scRNA序列数据集,并且一些已知标记在scRNA序列数据集中可能不像预期的那样特异。额外的标记通常必须通过搜索文献和挖掘现有的单细胞转录组数据来手动寻找与查询数据集相关的基因表达特征。

在某些情况下,一个簇可能不表达任何已知的细胞类型的标志物;相反,它可能表达一种以上的细胞类型的标志物。这就需要doublet检测工具帮助确定集群是否由doublet组成。

一旦来自已知标记物的细胞类型信息被用尽,必须逐簇手动检查未被可靠注释的细胞。然后手动研究所有标记基因,以找到可能有助于识别与其相关的簇的细胞类型的功能信息。信号通路富集分析也应适用于每个簇,使用标准的工作流程和工具,如基因组变异分析(GSVA)或单样本基因组富集分析(ssGSEA)来确定簇的特定信号通路。

一些细胞可能很难注释,包括新的细胞类型,可以根据它们表达的基因的功能来描述。此外,可能特别难以区分相同类型的组织驻留细胞(例如,组织驻留巨噬细胞)和非组织驻留细胞(例如,血液中循环的单核细胞)。识别组织驻留细胞的一种方法是修改实验设计,通过灌注步骤从相关组织中移除passenger cells。

最后,在注释细胞类型时需要谨慎地使用标准术语,以便细胞图谱更容易在不同的研究中被整合。

比较不同细胞注释方法的注意事项和建议  


步骤3:验证

上述工具和方法可以为scRNA-seq数据提供可靠的细胞类型标记。由于mRNA检测只能部分定义细胞类型和功能,关于新型细胞类型的重要结论必须经过实验验证。例如可以使用T细胞受体(TCR)和B细胞受体克隆分型来细化组织驻留免疫细胞的细胞类型标签,以检查T细胞和B细胞的转录特征。


分析流程的建议

细胞类型注释的质量受许多数据分析流程参数的影响,如数据过滤和数据质量设置,以及选择的聚类分辨率。scClustViz、Seurat和clustree等工具有助于选择适当的聚类分辨率。为了识别稀有细胞类型,在对细胞进行聚类之前,可能需要使用特征选择工具专门识别稀有细胞类型的标记(例如GiniClust85)。对于技术原因引入的“背景污染”可以使用SoupX(寻找细胞类型标记的非特异性表达)或CellBender(使用机器学习校正细胞表达谱)等方法来评估和校正

研究团队建议细胞注释的一般流程从自动注释开始,需要操作者有一定编程基础,主要使用R或Python编程语言。如果需要,可以通过使用软件(如Loupe Browser、GSEA和Cerebro)调查细胞的基因表达模式和相关的基因功能,不需要编程技巧,就可以对图谱进行完整注释。人工注释应该从识别主要的已知细胞类型开始。对于细胞图谱将数据分成广泛的子集(例如,免疫、内皮和肿瘤)并对每个子集应用推荐的工作流程是非常有用的。此外,并非所有工具都适用于所有数据集;重要的是考虑可靠的已知标记和高质量的参考数据集的可用性,或者在应用依赖于该信息的方法之前,在样本中有足够的多样性来检测差异表达的基因。

随着参考图谱的快速增长,Cell Ontology等资源的改进以及数据集整合算法的改进,预计自动注释会有重大改进。这些方法还需要扩展到具有数百万细胞的更大数据集规模。新的实验技术正在开发中,以检测每个细胞的更多分子细节,包括多组学技术(如mRNA、ATAC-seq、甲基化和表面蛋白),可以检测单个细胞的多种信息,这些预计将大大改善我们理解多细胞系统的能力。此外,跨越许多单细胞图谱的元分析将更清楚地确定跨组织和状态(如炎症)的细胞类型标记(如巨噬细胞或内皮细胞)。研究团队预计,随着每项研究样本数量的增加,图谱解释的重点将逐渐转移到跨疾病、年龄或其他条件的比较。  


首发公号:国家基因库大数据平台  

参考文献

Ahn J, Heo S, Lee J, et al. Introduction to Single-Cell DNA Methylation Profiling Methods[J]. Biomolecules, 2021, 11(7): 1013.

图片均来源于参考文献,如有侵权请联系删除。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,294评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,780评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,001评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,593评论 1 289
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,687评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,679评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,667评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,426评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,872评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,180评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,346评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,019评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,658评论 3 323
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,268评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,495评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,275评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,207评论 2 352

推荐阅读更多精彩内容