前言
说到对单细胞亚群进行定义,那对很多分析单细胞数据的小伙伴来说都是最头疼的事情之一了。因为定义细胞的正确与否直接关系到后续分析所有结果的准确性,所以针对单细胞注释的解决方案一直都是生物信息学在单细胞领域应用的热门,因此近些年不断有相应新的算法或软件被开发出来。
Immugent在之前的推文中就曾经介绍过两款从不同角度解决单细胞注释的软件;SciBet:一个软件解决单细胞注释所有烦恼;ProjecTILs:一站式解决肿瘤和感染模型中T细胞的注释。此外,Immugent还通过一篇相关综述系统总结了目前所有用于单细胞注释的软件:一文带你了解所有单细胞注释软件。
好的软件当然不怕多,因为选择多终究是一件好事,这样就可以通过互相验证,或者利用每一种软件的优点去进行单细胞注释。因此,Immugent今天就介绍一款新的单细胞注释软件--Sincast,相较于其它软件,它利用了bulk RNAseq的数据优势,联合两种测序手段,从而达到互相补充的作用。相应的文章于今年发表在Briefings in Bioinformatics杂志上,篇名为:Sincast: acomputationalframeworktopredictcellidentitiesinsingle-celltranscriptomesusingbulkatlasesasreferences。今天Immugent就先通过这篇文献整体介绍一下Sincast的工作框架。
主要内容
我们知道bulk数据和scRNA-seq数据之间的零组成和测序深度的差异,是将两种数据联合分析的主要挑战,Sincast就是着手在没有数据集成的情况下解决这一问题,文章的第一幅图就是介绍了Sincast工作流程。
随后作者就通过将正常对照和COVID-19患者免疫细胞的单细胞数据,使用pseudo-bulk算法聚合后,通过Sincast比对到同样来源于免疫细胞的bulk RNAseq数据上。
通过上图B作者证明整合后的患者的单细胞数据明显高表达和疾病进展相关的marker基因,而正常人低表达相关基因。
接下来,作者又使用了一篇研究DC的单细胞数据通过Sincast进行projection功能分析。通过和其它imputation软件进行对比,作者证明了Sincast比其它软件更能区分各种DC亚群。
在最后一幅图中,作者主要是显示MAGIC对调优参数敏感性的示意图。假设查询包含用绿色点和蓝色点表示的两个单元格群,并且要估算单元格1。使用MAGIC亲和矩阵规范,如果选择了错误的邻域大小,单元格4和5对cells-1中的零的imputation有很大的贡献。因此,作者建议通过缩放距离测量来解决这个问题,以突出距离的差异,以便cells-2和3更多地参与imputation。
展望
从这篇文章研究的科学问题来看,作者可能是做髓系细胞的或者是和相关领域专家合作的,因此Sincast在本篇文章的示例中主要是被用来进行髓系免疫细胞的注释。事实上,髓系细胞是一种可塑性非常强的免疫细胞,其在不同疾病中,甚至同一种疾病的不同阶段中都可以表现出不一样的功能,因此对髓系细胞进行精准的注释是揭示这些疾病的重要途径。当然Sincast也可以用于其它细胞类型的注释,只需要有相应的单细胞数据和bulk数据即可。
总的来说,Sincast是一个通过投影到大量参考图集(CAST)来查询scRNA-seq数据(SIN)的计算框架。在投射之前,单细胞数据被转换为能与bulk数据直接比较的形式:要么是伪批量聚合,要么是基于图的imputation,以解决稀疏的单细胞表达谱。特别重要的是,Sincast避免了批量效应校正,细胞身份是沿着连续体预测的,以突出在参考图谱中没有发现的新细胞状态。
好啦,关于Sincast整体框架的介绍到这就结束了,后续Immugent会推出一篇Sincast的代码实操演练,系统展示如何通过Sincast来分析我们的单细胞数据,敬请期待~~
[参考文献]
Deng Y, Choi J, Lê Cao KA. Sincast: a computational framework to predict cell identities in single-cell transcriptomes using bulk atlases as references. Brief Bioinform. 2022 May 13;23(3):bbac088. doi: 10.1093/bib/bbac088. PMID: 35362513; PMCID: PMC9155616.