一、文献
WGCNA(Weighted Gene Co-expression Network Analysis,加权基因共表达网络分析)是一种用于挖掘高维基因表达数据的系统生物学方法。它主要用于构建基因共表达网络,并识别与特定表型或生物学过程相关的基因模块和关键基因(Hub基因),能帮助研究者从全局视角探索基因间的相互作用及其潜在功能。
二、WGCNA分析步骤
三、WGCNA分析理论(理念和函数)
1、相关性网络
相关性网络是基于定量测量之间的相关性构建的,比如 n 个基因在m个样本中的表达量矩阵可以通过n × m 矩阵 X 来描述,其中行索引对应于基因( i = 1, . . ., n ) 和列索引 ( j= 1, ..., m ) 对应于样本:
2、构建基因共表达网络
如果两个基因的表达谱之间的绝对相关性超过(硬)阈值τ,则两个基因被连接。通过这种方式构建的网络称为未加权网络。虽然未加权网络被广泛使用,但它们不能反映底层共表达信息的连续性,因此可能导致信息丢失。相反,加权网络允许邻接取 0 到 1 之间的连续值
其中β≥ 1。加权 a ij 与共表达相似性 s ij 在对数尺度上的成正比,log ( a ij ) = β × log ( s ij)。相关性矩阵使用阈值将其转换为邻接矩阵 A = [a ij ],用于构建加权网络。
实验表明,基因调控网络、生物代谢网络等天然生物网络常表现出无标度拓扑(Scale-Free Topology)结构。因此,WGCNA构建的基因共表达网络应符合无标度拓扑,以保证结果的可靠性和解释性。
4、识别基因模块
1)、模块是通过基因表达的相似性和网络结构聚类得到的基因子集,表现为共表达模式高度一致的基因簇。识别模块的步骤包括:
① 计算拓扑重叠矩阵(TOM):通过拓扑重叠度(TOM)量化基因之间的连接强度,反映它们的共表达模式是否相似。
② 层次聚类分析:基于TOM矩阵对基因进行层次聚类,将表达模式相似的基因分为多个簇。
③ 动态剪枝法:通过动态剪枝算法进一步细化模块划分,确保模块内部基因表达更为一致。
2)、模块中还有一些关键概念:
① 模块特征基因(Module eigengene, E):模块的第一主成分,代表模块中基因的表达模式,类似于PCA中的PC1。
② 枢纽基因(Hub gene):在模块内高度连接并与模块特征基因相关的基因。
③ 模块显著性(Module significance):模块内所有基因的基因显著性(GS)的平均值。
四、运行代码(下次说)
生物信息学领域非常广泛,难以一次说尽。我们下次继续更新,一起深入学习生物信息学的内容!
喜欢的宝子们点个赞吧~码字不易,且行且珍惜~