在上篇棉花相关的单细胞帖子我提到过:
文中是这样说的:Guided by the bulk samples of cotyledons (0, 12, 24, 36 and 48 h after seeds imbibition) in G. bickii with pigment gland density information, 45 Scissor+ cells and 57 Scissor− cells were selected in pigment gland cells, which were associated with the pigment gland density phenotypes.
我说了我没怎么看懂是啥意思,通过参考文献看到是通过Scisor来做的,所以今天我们也来学习一下这个工具到底是干什么用的。
Scissor发表在2022年Nature Biotechnology上,题为《Identifying phenotype-associated subpopulations by integrating bulk and single-cell sequencing data》。从题目来看,Scissor利用单细胞数据和bulk RNA-seq数据及表型信息识别与疾病高度相关的细胞亚群。
作者开发Scissor的目的是结合bulk-seq的数据,寻找与某一性状显著相关的单细胞亚群,然后从表型的角度解释这些细胞亚群的生物学意义。作者开发Scissor的动机是由于目前对细胞亚群的分群大多基于scRNA的表达量进行无监督聚类,却鲜有人从表型的角度解释这些单细胞亚群。作者认为,相同的细胞亚群可能会导致相同表型的发生。
=========原理========
如下图所示,作者需要的 input 文件有三种,单细胞数据,表型数据(可以说离散型表型数据,也可以是连续型表型数据)和bulk-seq的表达矩阵。
第一步,软件利用分位数回归去除了bulk-seq和scRNA的批次效应;
第二步基于单细胞数据构建cell与cell间的similarity network(G);
第三步计算单细胞表达矩阵对bulk-seq表达矩阵的皮尔斯相关系数,记作S={sij}n×m,n为sample的总数目,m为细胞的总数目;
第四步,利用相关性矩阵S作为决策变量,表型数据作为响应变量建立回归关系,设回归系数为β,在计算β的过程中将以及cell与cell间的similarity network(G)的部分信息(利用度矩阵和邻接矩阵构建拉普拉斯矩阵)作为估计的正则项。
下面就是估计回归系数β了,如下所示:(因为不是专业做统计这块的,就略过了)
结论就是:计算出来的回归系数为β越高代表某细胞亚群与某表型的相关性比较高,反之比较低。
其实,bulk-seq的sample数量与表型数据的数量是一致的。而决策变量Si表征每个细胞与sample i的相关性,相关性高即代表该细胞与该sample的表达模式相同,也就是sample i 中这个细胞的含量较多(该细胞含量多才会使得该细胞与该sample之间表达模式相同),因此可以等量代换为某个细胞的含量与表型之间的关系,因此β值为正且越大,则说明该细胞含量对表型影响呈正相关且影响大。反之β为负且越小,则说明该细胞含量对表型影响呈负相关且影响大。
因此,其中Scissor+ 表示所选择的细胞与感兴趣的表型呈正相关,Scissor-为负相关。表型信息可以是连续变量、二分向量或临床生存数据,会分别对应不同的回归方法。
然后,作者分别在几组不同属性的数据上测试了Scissor的有效性。
例如:利用来自TCGA的肺腺癌(LUAD)肿瘤样本和正常表型样本,然后下载了471个bulk sample的数据,研究团队设计了一个基于样本表型相关矩阵的回归模型并整合了相似性网络。通过优化这个回归模型,Scissor可以识别与目标表型最相关的细胞亚群。结果鉴定出来201个Scissor+的cell,和Scissor-的cell(下图b)。其中这201个cell在cluster 1,2,3,11中最多(下图c)。然后作者通过对比scissor+的cell和其它cell,鉴定了一些特异表达的基因,然后发现这些基因大多和hypoxia相关(下图d,e)。富集结果也表明和hypoxia相关的pathway有关。结果显示,Scissor能够很好地区分肿瘤细胞和正常细胞,证明Scissor能够在大量细胞表型数据信息的指导下,从单细胞数据中准确识别大多数表型相关细胞。
然后,作者又选取了6组公共的肺癌数据去查看这23个在scissor+cell中高表达基因的表达特征,发现了同样的规律。所以double验证了scissor结果的准确性。
随后,研究人员对黑色素瘤scRNA序列数据以及70个bulk samples进行了Scissor操作,以确定与ICB反应相关的T细胞亚群。从下图a-f和前面是一样的结果和思路。因为这70个bulk sample有免疫反应的信息,所以作者查看了鉴定出来的cell在两组不同免疫反应之间的差异。Scissor发现了一个与免疫治疗反应正相关的低PDCD1/CTLA4和高TCF7表达的T细胞亚群,表明即使单细胞数据本身没有相关表型信息,Scissor分析仍能识别与特定表型相关的细胞亚群。
除了癌症肿瘤数据,作者还测试了Scissor,发现对非肿瘤数据预测也具有很好的表现。
研究人员应用Scissor对阿尔茨海默症(AD)scRNA-seq研究中的三种脑细胞类型,以及14个bulk samples(包含7个正常的,7个AD病人)进行了分析,确定了三种与AD高度相关的脑细胞亚群,对理解AD的潜在发病机制、疾病诊断和治疗具有重要作用。