说在前面
在单细胞数据分析流程中,细胞亚群注释的准确性一直都是重中之重,生信宝库在之前的推文:一文解决单细胞亚群注释的所有问题中,已经介绍了解决单细胞亚群注释常见问题的一些方法,并且给出了Immugent基于多年单细胞分析经验的各种细胞marker genes。
此外,在推文 SciBet:一个软件解决单细胞注释所有烦恼 中,我们又介绍了基于机器学习的算法来进行单细胞自动化注释的方法。事实上,机器学习因为具备灵活、准确、可优化等一系列特点,非常适用于单细胞亚群注释。截止到目前,已经有很多基于机器学习的单细胞注释软件被开发出来,今天Immugent就来介绍另一款基于机器学习的单细胞亚群注释软件:mtSC,相应的文章在2021年以题为:Integrating multiple references for single-cell assignment的形式发表在Nucleic Acids Res杂志上。
下面我们通过原文来了解一下mtSC相对于其它同类软件的优点,和使用流程。
主要流程
Immugent先放一张mtSC的工作流程图,同样的,小编自己是不咋能看懂的。。。
但是没有关系,因为我们很多人并不是想学习它的开发流程用于开发自己的软件,而是使用它。
下面就是需要通过和其它同类软件进行比较,来突出mtSC的优点了。作者首先和PCA和DML算法(深度度量学习)来比较,从下图我们可以清楚看到,相比于其它两款软件mtSC注释出的细胞群分布更加紧凑,每一种细胞亚群的内部各细胞之间的一致性也更高。
接下来,作者就使用现有的工具对mtsc进行基准测试,以便使用多个参考引用数据集进行单细胞亚群注释。通过下图我们可以看到相比于其它三种整合多参考数据集进行单细胞亚群注释的方法,mtSC不仅在准确性上更高,而且更快,需要的计算资源更少。
下面就要重点说一下mtSC的最大的优点了,那就是它可以整合多个参考数据集对细胞亚群进行注释。在这个软件被开发出之前,我们一般对单细胞亚群进行注释都只能将一个已经注释好的数据集作为参考,但是考虑到不同的数据来源不同的平台或者不同版本的试剂(如10x的v2, v3试剂盒),就导致注释出的细胞亚群效果并不理想,而mtSC可以同时整合多个参考数据集进行单细胞亚群注释,而且从下图我们可以看出整合多个数据集进行注释的结果更加准确。
mtSC的另一大优势是它可以进行跨物种的单细胞亚群注释。
我们知道因为伦理学的限制,科研工作者无法直接在人体上进行功能实验,在日常科研工作中使用最多的就是小鼠模型了。但是因为在表达定量时使用的参考基因组不同,我们无法直接将基于小鼠模型得到的细胞亚群注释结果映射到人的细胞上,而mtSC就可以很好的帮我们解决这个问题。
小结
高效准确的单细胞亚群注释对单细胞测序数据分析至关重要,随着近些年单细胞测序数据的爆炸式增长,对于同一种组织,可以有多个单细胞测序数据源。我们可以通过可以集成同类多个参考数据集,进一步提高单细胞亚群注释。然而,由于多引用存在数据异构的巨大挑战,目前仍缺乏有效的集成框架。
为此,mtSC提出了一个灵活的单细胞注释解决方案,该框架集成了基于多任务深度度量学习的多个参考点,专为设计使用多个单细胞测序数据作为参考的组织中的细胞类型识别。作者在一套全面的公开可用的基准数据集上评估了mtSC,并证明了它在多引用的整合单细胞分配方面具有最优异的表现。
好啦,本期推文我们就介绍到这里,欢迎有接触到同类软件的小伙伴通过后台与我们联系,我们下期再会。