加权基因共表达网络分析(WGCNA, weighted gene coexpression network analysis)
是一种分析多个样本基因表达模式的方法,将表达模式相似的基因进行聚类形成不同模块,并分析模块与表型或者性状之间的关联关系,以及网络中的核心基因(Hub gene)。WGCNA将数以万计的基因与表型之间的关系转换为为数个基因集与表型之间的关联,属于一种信息归纳提炼的算法。
适用于:复杂的数据模式,一般推荐5组(或者15个sample)以上数据。
- 重要概念
-
权重(weight):因素或者指标的相对重要性/贡献度,在WGCNA中可理解为基因之间的相关性。
2.** Module eigengene E**: 给定模型的第一主成分,即基因与样本构成的矩阵,代表整个模型的基因表达谱。即用一个向量代替了一个矩阵,方便后期计算。 - 无尺度网络(scale free network)
- 首先,我们把网络看作一个图形。
-
介绍无尺度网络时,先引入一个概念,度(degree)。一个点的度是指图形中的一个点关联的边数。生活中常见的网络多为随机网络,即每一个点的度相对平均。那么无尺度网络是什么样的呢,有少数几个节点连接更多的度,称之为hub,而其它节点只链接1-2个度从而构成了整个网络。生物体在进化过程中采用了无尺度网络的模式,少数关键基因(Hub gene)执行主要生物学功能,从而维持机体健康与稳定。在这种模式下,即使机体受到外界刺激,只要不波及Hub gene,不会对机体产生太大影响,但是如果是随机网络,其受到伤害程度将直接与刺激强度成正比。
- 模块(module):高度相关的基因,即表达模式相似的基因为一个模块。
- 连接度(connectivity):类似于度,指的是与每个基因相连的边属性之和。
- 邻近矩阵(Adjacency Matrix):是图的一种存储形式,用一个一维数组存放图中所有顶点数据;用一个二维数组存放顶点间关系(边或弧)的数据,这个二维数组称为邻接矩阵;在WGCNA分析里面指的是基因与基因之间的相关性系数矩阵。
- 拓扑重叠矩阵(TOM,topological overlap matrix):将上述的邻接矩阵转换为TOM,以降低噪音与假相关,获得的新的距离矩阵,用于后续下游分析。
WGCNA一般步骤
后续实操明天学习
参考:1. WGCNA构建基因共表达网络详细教程 - wangshicheng - 博客园 (cnblogs.com)
- 生信技能树 jimmy大神的github