Scissor:联合表型数据,Bulk-seq和scRNA(1)

在上篇棉花相关的单细胞帖子我提到过:

文中是这样说的:Guided by the bulk samples of cotyledons (0, 12, 24, 36 and 48 h after seeds imbibition) in G. bickii with pigment gland density information, 45 Scissor+ cells and 57 Scissor− cells were selected in pigment gland cells, which were associated with the pigment gland density phenotypes.

我说了我没怎么看懂是啥意思,通过参考文献看到是通过Scisor来做的,所以今天我们也来学习一下这个工具到底是干什么用的。

Scissor发表在2022年Nature Biotechnology上,题为《Identifying phenotype-associated subpopulations by integrating bulk and single-cell sequencing data》。从题目来看,Scissor利用单细胞数据和bulk RNA-seq数据及表型信息识别与疾病高度相关的细胞亚群。

作者开发Scissor的目的是结合bulk-seq的数据,寻找与某一性状显著相关的单细胞亚群,然后从表型的角度解释这些细胞亚群的生物学意义。作者开发Scissor的动机是由于目前对细胞亚群的分群大多基于scRNA的表达量进行无监督聚类,却鲜有人从表型的角度解释这些单细胞亚群。作者认为,相同的细胞亚群可能会导致相同表型的发生。

=========原理========

如下图所示,作者需要的 input 文件有三种,单细胞数据,表型数据(可以说离散型表型数据,也可以是连续型表型数据)和bulk-seq的表达矩阵。

第一步,软件利用分位数回归去除了bulk-seq和scRNA的批次效应;

第二步基于单细胞数据构建cell与cell间的similarity network(G);

第三步计算单细胞表达矩阵对bulk-seq表达矩阵的皮尔斯相关系数,记作S={sij}n×m,n为sample的总数目,m为细胞的总数目;

第四步,利用相关性矩阵S作为决策变量,表型数据作为响应变量建立回归关系,设回归系数为β,在计算β的过程中将以及cell与cell间的similarity network(G)的部分信息(利用度矩阵和邻接矩阵构建拉普拉斯矩阵)作为估计的正则项。

下面就是估计回归系数β了,如下所示:(因为不是专业做统计这块的,就略过了)

结论就是:计算出来的回归系数为β越高代表某细胞亚群与某表型的相关性比较高,反之比较低。

其实,bulk-seq的sample数量与表型数据的数量是一致的。而决策变量Si表征每个细胞与sample i的相关性,相关性高即代表该细胞与该sample的表达模式相同,也就是sample i 中这个细胞的含量较多(该细胞含量多才会使得该细胞与该sample之间表达模式相同),因此可以等量代换为某个细胞的含量与表型之间的关系,因此β值为正且越大,则说明该细胞含量对表型影响呈正相关且影响大。反之β为负且越小,则说明该细胞含量对表型影响呈负相关且影响大。

因此,其中Scissor+ 表示所选择的细胞与感兴趣的表型呈正相关,Scissor-为负相关。表型信息可以是连续变量、二分向量或临床生存数据,会分别对应不同的回归方法。


然后,作者分别在几组不同属性的数据上测试了Scissor的有效性。

例如:利用来自TCGA的肺腺癌(LUAD)肿瘤样本和正常表型样本,然后下载了471个bulk sample的数据,研究团队设计了一个基于样本表型相关矩阵的回归模型并整合了相似性网络。通过优化这个回归模型,Scissor可以识别与目标表型最相关的细胞亚群。结果鉴定出来201个Scissor+的cell,和Scissor-的cell(下图b)。其中这201个cell在cluster 1,2,3,11中最多(下图c)。然后作者通过对比scissor+的cell和其它cell,鉴定了一些特异表达的基因,然后发现这些基因大多和hypoxia相关(下图d,e)。富集结果也表明和hypoxia相关的pathway有关。结果显示,Scissor能够很好地区分肿瘤细胞和正常细胞,证明Scissor能够在大量细胞表型数据信息的指导下,从单细胞数据中准确识别大多数表型相关细胞。

然后,作者又选取了6组公共的肺癌数据去查看这23个在scissor+cell中高表达基因的表达特征,发现了同样的规律。所以double验证了scissor结果的准确性。

随后,研究人员对黑色素瘤scRNA序列数据以及70个bulk samples进行了Scissor操作,以确定与ICB反应相关的T细胞亚群。从下图a-f和前面是一样的结果和思路。因为这70个bulk sample有免疫反应的信息,所以作者查看了鉴定出来的cell在两组不同免疫反应之间的差异。Scissor发现了一个与免疫治疗反应正相关的低PDCD1/CTLA4和高TCF7表达的T细胞亚群,表明即使单细胞数据本身没有相关表型信息,Scissor分析仍能识别与特定表型相关的细胞亚群。

除了癌症肿瘤数据,作者还测试了Scissor,发现对非肿瘤数据预测也具有很好的表现。

研究人员应用Scissor对阿尔茨海默症(AD)scRNA-seq研究中的三种脑细胞类型,以及14个bulk samples(包含7个正常的,7个AD病人)进行了分析,确定了三种与AD高度相关的脑细胞亚群,对理解AD的潜在发病机制、疾病诊断和治疗具有重要作用。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,189评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,577评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,857评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,703评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,705评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,620评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,995评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,656评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,898评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,639评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,720评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,395评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,982评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,953评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,195评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,907评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,472评论 2 342

推荐阅读更多精彩内容