hello,大家好,今天给大家分享一些10X单细胞(10X空间转录组)做WGCNA分析时的一些东西,个人认为很重要,不过不得不承认的是,10X单细胞(10X空间转录组)做WGCNA分析发的文章很少,究其原因,还是无法真正的利用WGCNA分析内容与10X单细胞(10X空间转录组)很好的结合,但是这个分析其实很重要,接下来我们就来分享10X单细胞(10X空间转录组)做WGCNA分析的智慧。
WGCNA基本概念
加权基因共表达网络分析 (WGCNA, Weighted correlation network analysis)是用来描述不同样品之间基因关联模式的系统生物学方法,可以用来鉴定高度协同变化的基因集, 并根据基因集的内连性和基因集与表型之间的关联鉴定候补生物标记基因或治疗靶点。(当然,在我们这里每个barcode就会使一个“样本”)
相比于只关注差异表达的基因,WGCNA利用数千或近万个变化最大的基因或全部基因的信息识别感兴趣的基因集,并与表型进行显著性关联分析。一是充分利用了信息,二是把数千个基因与表型的关联转换为数个基因集与表型的关联,免去了多重假设检验校正的问题。(表型关联是WGCNA设计的初衷,但是到了我们这里,关联的就是细胞类型)
理解WGCNA,需要先理解下面几个术语和它们在WGCNA中的定义。
共表达网络:定义为加权基因网络。点代表基因,边代表基因表达相关性。加权是指对相关性值进行冥次运算 (冥次的值也就是软阈值 (power, pickSoftThreshold这个函数所做的就是确定合适的power))。无向网络的边属性计算方式为
abs(cor(genex, geney)) ^ power
;有向网络的边属性计算方式为(1+cor(genex, geney)/2) ^ power
; sign hybrid的边属性计算方式为cor(genex, geney)^power if cor>0 else 0
。这种处理方式强化了强相关,弱化了弱相关或负相关,使得相关性数值更符合无标度网络
特征,更具有生物意义。如果没有合适的power,一般是由于部分样品与其它样品因为某种原因差别太大导致的,可根据具体问题移除部分样品或查看后面的经验值
。Module(模块):高度內连的基因集。在无向网络中,模块内是高度相关的基因。在有向网络中,模块内是高度正相关的基因。把基因聚类成模块后,可以对每个模块进行三个层次的分析:
1
. 功能富集分析查看其功能特征是否与研究目的相符;2
. 模块与性状进行关联分析,找出与关注性状相关度最高的模块;3
. 模块与样本进行关联分析,找到样品特异高表达的模块。(这个地方是分析的核心部分)Connectivity (连接度):类似于网络中 “度” (degree)的概念。每个基因的连接度是与其相连的基因的
边属性之和
。Module eigengene E: 给定模型的第一主成分,代表整个模型的基因表达谱。这个是个很巧妙的梳理,这个地方,很好的用一个向量代替了一个矩阵,方便后期计算。
Intramodular connectivity: 给定基因与给定模型内其他基因的关联度,判断基因所属关系。
Module membership: 给定基因表达谱与给定模型的eigengene的相关性。
Hub gene: 关键基因 (连接度最多或连接多个模块的基因)。
Adjacency matrix (邻接矩阵):基因和基因之间的加权相关性值构成的矩阵。
TOM (Topological overlap matrix):把邻接矩阵转换为拓扑重叠矩阵,以降低噪音和假相关,获得的新距离矩阵,这个信息可拿来构建网络或绘制TOM图。
基本分析流程
构建基因共表达网络:使用加权的表达相关性。
识别基因集:基于加权相关性,进行层级聚类分析,并根据设定标准切分聚类结果,获得不同的基因模块,用聚类树的分枝和不同颜色表示。
如果有表型信息,计算基因模块与表型的相关性,鉴定性状相关的模块。
研究模型之间的关系,从系统层面查看不同模型的互作网络。
从关键模型中选择感兴趣的驱动基因,或根据模型中已知基因的功能推测未知基因的功能。
导出TOM矩阵,绘制相关性图。
上面部分的介绍大家都应该很熟悉了,关键在于这个方法在10X单细胞和10X空间转录组上是如何运用的。我们首先来看10X单细胞的部分:
前面的部分很常规,都是在计算基因表达的一个相关性和基因模块
简单说一下灰度模块的基因,分析的时候我们去除掉
当然,也可以做一下常规的下游分析
主要的内容点在于和10X单细胞数据相关联,当然我们这里展示和cluster相关联
我们这里需要注意的是,整合样本做WGCNA分析,分析得到的模块主要和细胞类型有关联,因为此时的cluster代表不同的细胞类型,此时做WGCNA感觉作用不大,因为不同的细胞类型本身就应该有独特的一套基因列表,那什么时候该用呢??
很简单,当我们在做同一细胞类型再分群的时候,这个分析的用处就会很大,因为得到的模块与同一细胞类型不同的subcluster相关联,得到的就是一些在各个亚群高度协调的模块基因,这个时候把得到的模块基因全部做下游分析,意义非常大,从另外一个侧面表现了细胞类型内部的异质性,如果是多样本整合的关系(比如正常和疾病),同一细胞类型的不同样本关联得到的gene模块列表,就可以得到处理组和对照组关联度高的模块列表,新的角度来看待疾病的发生。
但是我个人最喜欢的是第三个角度,就是马上要讲的这个,我们在做分析的时候,同样是多个样本(正常和疾病两组),同一细胞类型,我们先做正常组(或者疾病组)的WGCNA,得到的基因模块反映到疾病组(正常组),这个时候就会看出来明显的差异,本应该高度关联的模块可能就消失了,这个高度关联的模块的功能也随之产生了变化;还有就是同一细胞类型,两组样本先分别做WGCNA,得到的基因模块进行平行对比,那么得到的,就是对疾病发生新的认识,很重要,注意留心~~~
WGCNA与10X空间转录组相关联(更加重要)
关于10X空间转录组分析的重要性,已经讲了很多了,这里不再赘述,但是10X空间转录组做重要的分析点WGCNA却鲜有提及,为什么呢?更多还是对深入认识的缺乏,做WGCNA可以让我们得到一下认识:
-
1、模块的空间分布特点,既然是10X空间转录组,我们当然是和空间位置相关联,一些高度关联的模块在空间上的分布特点是要告诉我们什么呢???
这个地方大家对比空间差异基因的分析方法,可参考文章10X空间转录组之基因的空间表达模式,这个地方价值极高。
-
2、一样的思路,正常组的模块的空间位置,在疾病组发生了怎么样的变化呢???
此时我们分开样本做WGCNA,得到的模块进行平行分析,又会得到什么样的结果呢???大家不妨自己好好想一想。
总之,核心部分还是模块在不同样本的差异,10X空间转录组就是空间分布的差异,当然,还有很多分析的组合,在这里不可能一一叙述完全,大家要根据自己的实际情况,安排方案设计,完成自己的分析目的。
生活很好,等你超越