WGCNA分析中如何选择软阈值?
这次依然还是给你抛出官网教程,依然是:你看还是不看,它就在那里,等着你的深入研究~
https://horvath.genetics.ucla.edu/html/CoexpressionNetwork/Rpackages/WGCNA/Tutorials/
如有理解错误,还请各位大神批评指正!
依然是这张图:
上次简单说了一下小编对于软阈值的理解,接着上次的文章,这次我们来说一下:
- 如何选取Soft Threshold,多少的时候合适?(即上图中左右图的意思和纵坐标的理解)
- 对于这张图的说明,官网给出的注释是这个样子的:
Figure 1: Analysis of network topology for various soft-thresholding powers. The left panelshows the scale-free fit index (y-axis) as a function of the soft-thresholding power (x-axis). The right panel displays the mean connectivity(degree, y-axis) as a function of the soft-thresholding power (x-axis).
实现这张图的代码:
1,左图的纵坐标scale-free fit index,即signed R2,代表对应的网络中log(k)与log(p(k))相关系数的平方乘以一个方向向量,由slope决定(The sign of the scale-free model fitting index R2 is determined by minus the sign of the slope),拟合的线性方程为下图,来源于WNCGCNA包中的源代码:
相关系数的平方越高,说明该网络越逼近无标度网络的分布。相关参考文献中有大量数据证明当signed R2 大于0.85时,网络就已经符合无标度网络的分布。
因此,WGCNA包中计算SoftThreshold的函数pickSoftThreshold中RsquaredCut 默认值为 0.85,最佳的powers值保存在sft$powerEstimate。上图中,作者重新设定了一个阈值cex1=0.9,因此你会看到图片作图中有一条红色的横线,表示第一个signed R2达到这条红线时的最佳powers值,此图中是6。
2,右图的纵轴代表对应的网络中所有基因连接数(即节点的度)的均值。
另外,官网教程中给的上述的图其实有一个小错误,心细的同学应该发现了吧,正确的图时下面小编自己用官网的数据和教程重新绘制的一张!
参考资料:
1,https://horvath.genetics.ucla.edu/html/CoexpressionNetwork/Rpackages/WGCNA/Tutorials/
2,A General Framework for Weighted Gene Co-Expression Network Analysis, Stat Appl Genet Mol Biol. 2005;4:Article17. Epub 2005 Aug 12
3,WGCNA: an R package for weighted correlation network analysis.BMC Bioinformatics. 2008 Dec 29;9:559. doi: 10.1186/1471-2105-9-559.