1、加权共表达网络分析(WGCNA)步骤:
(1)构建共表达网络:根据基因与基因之间的相关性建立
(2)划分模块:表达模式相似的基因划分为一个模块
(3)模块与性状关联分析
(4)模块之间的关联分析
(5)模块中核心基因的鉴定:Hub基因
2、WGCNA原理:
(1)什么是共表达?
简单来说,就是在多个样品中,两个基因的表达模式非常相似,往往意味着相关性。
相关性系数来决定表达模式是否相似:0 <= |r| <=1
(2)什么是网络?
节点(node):每个基因代表一个节点
连接(link):每条线代表一个连接
无权网络(unweighted network):按照相关性将节点连接起来,不牵涉与其它节点关系的强弱。
加权网络(weighted network):线的粗细代表连接性的高与低,相当于权重,所有节点之间关系的叠加
邻接矩阵(adjacency matrix): 节点之间的关系强弱,叫做临接度,一个网络里的所有基因,就形成了邻接矩阵。
连通性(connectivity):节点的重要程度,与多少个其它节点有关系以及节点之间的强弱。
随机网络:没有特别重要或者是特别关键的节点
无尺度网络:如下图所示,在无尺度网络中,都只与少数节点连接,比如下图中红色的点;而极少数的节点与很多节点连接,比如蓝色的点。如果把每个节点的连接数进行排序,无尺度网络的的连通性是符合幂律分布的。
3、具体分析流程:
第一步:数据预处理。过滤掉在所有样本中表达量都很低的基因和几乎没有差异的基因(不建议只保留显著差异基因)。
第二步:构建相关性矩阵
Unsighed:不区分正相关和负相关,直接取绝对值。
Sighed:区分正相关和负相关。
第三步:构建邻接矩阵(线性相关)
方法一:hard threshold:人为决定
方法二:soft threshold
评价标准:尽可能接近无尺度网络而且尽可能保留连通性信息
第四步:构建拓扑重叠矩阵(加入中间节点)
既包含两个基因的直接相关性,也包含与中间节点显著相关的两个基因的关系
怎么表示基因之间的关系/距离?
相关系数矩阵-->邻接矩阵-->TOM矩阵
第五步:共表达网络构建(聚类)
有关联的基因被聚在一个分支上
第六步:模块划分:Dynamic Tree Cut
第七步:合并相似模块
第八步:模块与性状相关
模块基因做主成分分析,PC1做为模块特征向量,然后计算模块特征向量与基因的相关性。
第九步:GS和MM
GS:性状与模块基因的相关性
MM:基因与模块的相关性,检测成员基因是否与模块趋势一致
第十步:可视化