加权基因共表达网络分析 (WGCNA, Weighted correlation network analysis)是基于基因的共表达特性进行基因模块聚类,以探索基因与性状之间的关联性,基因模块与性状的关联性,并筛选网络中的核心基因。
相关概念
co-expression network (共表达网络):一种无方向性的,加权网络,网络的节点代表基因(也可以是蛋白质、代谢产物等),网络的变可以描述基因和基因间共表达程度的高低。为了衡量基因间共表达程度的高低,在计算基因间相关系数(例如皮尔森相关系数)的基础上,对其进行β次方加权,进而可以强化强相关性节点的关系。
Weighted (加权):指对相关性值进行幂次运算。这种处理方式强化了强相关,弱化了弱相关或负相关,使得相关性数值更符合无标度网络特征,更具有生物意义。如果没有合适的power,一般是由于部分样品与其它样品因为某种原因差别太大导致的,可根据具体问题移除部分样品或查看后面的经验值。
Adjacency matrix(邻接矩阵):邻接矩阵有分布在0-1之间的数值组成,是基因和基因之间的加权相关性值构成的矩阵,用来描述节点间相关性强度。
TOM (Topological overlap matrix):拓扑重叠是通过比较两个节点和网络中其他节点的加权相关性来定量描述节点间相似性的方法。把邻接矩阵转换为拓扑重叠矩阵,以降低噪音和假相关,获得的新距离矩阵,这个信息可拿来构建网络或绘制TOM图。
Module(模块):指具有高拓扑重叠相似性的基因集,即高度內连的基因集。共表达模块是更加非相似性矩阵,利用聚类算法获得的。在无向网络中,模块内是高度相关的基因。在有向网络中,模块内是高度正相关的基因。把基因聚类成模块后,可以对每个模块进行三个层次的分析:1. 功能富集分析查看其功能特征是否与研究目的相符;2. 模块与性状进行关联分析,找出与关注性状相关度最高的模块;3. 模块与样本进行关联分析,找到样品特异高表达的模块。
Module eigengene (ME):给定模块的第一主成分,代表整个模块的基因表达谱,用来描述模块在各样品中的表达模式。
Module membership (MM):指给定基因和给定ME之间的相关系数,描述基因属于一个模块的可靠性。
Intramodular connectivity (模块内连通性):某一个基因的模块内连通性等同于该基因与模块内其他基因关联程度之和,该值越大说明这个基因在模块中越处于核心位置。
Connectivity (连通性):类似于网络中 "度"(degree)的概念。每个基因的连连通性是与其相连的基因的边属性之和。
Hub gene:关键基因 (连接度最多或连接多个模块的基因)。
Gene significance (GS):基因显著性,定义单个基因与外部信息的关联性,即基因与某个性状的相关性。
基本分析流程
1.建立关系矩阵:计算两个基因表达量之间的相关系数,构建成关系矩阵。
2. 建立邻接矩阵:根据基因表达的相关系数进行加权计算,构建邻接矩阵。
3. 建立拓扑重叠矩阵:计算节点间的相异程度,将邻接矩阵转换为拓扑重叠矩阵。
4.基因模块识别:基于拓扑邻接矩阵,进行层级聚类分析,并根据设定标准切分聚类结果,获得不同的基因模块,用聚类树的分枝和不同颜色表示。
5. 核心模块选择:根据表型特征确定核心模块。
6.核心基因筛选:基于基因连通性筛选核心基因,并围绕核心基因进行网络构建
WGCNA分析输入数据
鉴于WGCNA依靠基因的共表达情况进行分析,因此必须要有足够的样本数,才能保证相关系数计算的准确性;此外样本必须包含丰富的变化信息,才能鉴定出有意义的基因模块。因此WGCNA对于输入数据有一定的要求:1.不包含生物学重复的独立样本组:样本数>=8;2.包含生物学重复的样本组:样本数>=15;3. 输入数据要求是进行标准化的数据;4. 输入数据的基因数建议不要超过5000(可以根据变化程度或者表达丰度进行筛选;基因越多,运行时间越长)。