WGCNA是什么
WGCNA全称为weighted gene co-expression network analysis,译为加权基因共表达网络分析。WGCNA分析方法的目的是寻找协同表达的基因模块(module),并探索基因网络与关注的表型之间的关联关系,以及寻找网络中的核心基因。
WGCNA的适用分析数据
WGCNA分析适用于复杂的数据模式,WGCNA官网建议至少15个样品进行分析(https://horvath.genetics.ucla.edu/html/CoexpressionNetwork/Rpackages/WGCNA/faq.html)。一般可应用的研究方向有:不同器官或组织类型发育调控、同一组织不同发育调控、非生物胁迫不同时间点应答、病原菌侵染后不同时间点应答。
WGCNA分析原理
从方法上来讲,WGCNA分为表达量聚类分析和表型关联两部分,是从转录组数据中挖掘基因模块的算法。如果某一类基因在不同的发育阶段或者胁迫处理的不同时间点表达模式变化相似,那么就可以把他归成一个模块(module),认为这些基因在功能上是相关的。
WGCNA分析主要包括基因之间相关系数计算、基因模块的确定、模块与性状关联、提取关键候选基因四个步骤。
1.基因相关系数计算
WGCNA第一步计算任意两个基因之间的相关系数(Person Coefficient)。为了衡量两个基因是否具有相似表达模式,一般需要设置阈值来筛选,高于阈值的则认为是相似的。传统方法上,描述两个基因间的关联程度,可通过计算表达值间的Pearson、Spearman等相关系数获得。为了构建关联网络,通常指定一个筛选阈值,如相关系数大于0.8以上,作为两个基因间具有强关联程度的依据。但是基于固定阈值法的缺点在于,阈值是人为定义的,将会忽略很多潜在关联。例如,0.79就是不相关吗?同时,这种一刀切的方法也会丢失基因的变化趋势信息,将难以在网络中描述相关性的强弱关系。为了解决这些问题,提出了“加权”的思想。WGCNA的做法是对基因表达值之间的相关系数取β次幂,使得网络中的基因之间的连接服从无尺度网络分布(scale-freenetworks),直接结果是把基因间相关性的强弱的差异放大。这样做的好处是使强弱关系更为分明,有利于后续聚类(模块)识别。
判断β合适的方法:
在取了一定的β参数之后,具体计算度数为k的节点个数的对数值log(k),与该节点出现的概率的对数log(p(k))呈现负相关,一般会设置相关系数大于0.8。
参数β取值默认是1到30,上述图形的横轴均代表权重参数β,左图纵轴代表对应的网络中log(k)与log(p(k))相关系数的平方。相关系数的平方越高,说明该网络越逼近无网路尺度的分布。红线处对应的的β值即为本次最合适的β值。
2.基因模块确定
第二步通过基因之间的相关系数构建分层聚类树,聚类树的不同分支代表不同的基因模块,不同颜色代表不同的模块。基于基因的加权相关系数,将基因按照表达模式进行分类,将模式相似的基因归为一个模块(module)。这样就可以将几万个基因通过基因表达模式被分成了几十个模块,是一个提取归纳信息的过程。下图总Dynamic Tree Cut代表根据相关性初步划分的模块,下面的颜色模块Merged danamic 代表的是合并相似模块后的结果。
3.模块与性状关联分析
- 模块间的相关性分析
模块特征值(Epigengene):模块内所有基因进行主成分分析(PCA),第一主成分的值即为Epigengene,它代表该模块内基因表达的整体水平(表达模式),可以把模块看成基因,那么模块特征值就可以看作这个基因的表达值。
根据模块与模块间特征值的相关性绘制模块间相关性热图。热图可分为两部分,上部分根据模块特征值(eigengene)对模块进行聚类。纵坐标代表节点的相异程度,每一个模块用不同的颜色表示;下半部分图形中横坐标和纵坐标分别代表不同模块,不同颜色用不同模块来表示。中间的每个方块代表模块与模块的相关性,方块颜色越深(越红),相关性越强;方块颜色越浅,相关性越弱。
样品与模块的相关性分析
根据模块特征值与样品进行相关性分析。如果模块在样品中特征值正或负表达较高,说明该模块与这个样品密切相关。
样品和模块间相关性热图,横坐标代表不同样本,纵坐标代表不同模块。中间的每个方块代表样品与模块的相关性,方块颜色越红,相关性越强;方块颜色越蓝,相关性越弱。可以根据样品与模块的相关性筛选样品关键模块。
4.提取关键候选基因
通过样品与模块相关性分析筛选到关键模块后,该模块中还有上百条基因。那么哪些是跟样本最相关的基因呢?可以通过筛选核心基因来确定关键基因。连通性是指一个基因与其他基因的连接程度(通常只在模块内计算),常称为connectivity或degree,或用数字k表示。一般而言,在一个模块中,连通性(k值)排名靠前的基因可认为核心基因(hub gene)。在下表中可以通过查看kWithin值大小来判断核心基因。
得到模块内的核心基因后往往还会挑选模块内与核心基因相关的其他基因。可以通过模块网络节点关系来筛选。下表中前两列是对应的两个基因,第三列weight代表两两基因的连接强度。一般认为大于阈值(默认是0.15)的两个基因才认为是相关的。可以通过筛选大于阈值的两两基因的关联度来筛选与核心基因相关的其他基因。