使用WGCNA进行meta-analysis

  • 鉴于大量的转录组数据,可能出现的一个问题是“如果A组和B组都进行了转录组研究并报告了一些结果,这些结果的相容性如何?”目前基于转录组或芯片数据进行meta-analysis的方法很多,我们可以在数据库中寻找大量类似的实验结果用于meta-analysis,而WGCNA可以在转录组/芯片数据中构建无标度网络并将基因的表达水平与样本表型关联起来,这在转录组分析中发挥了十分重要的作用,在这里我们可以使用WGCNA将两组/两组以上的数据联合起来,用于阐述不同实验结果/不同物种间的基因表达模式的关联
  • Miller JA, Horvath S, Geschwind DH. (2010) Divergence of human and mouse brain transcriptome highlights Alzheimer disease pathways. Proc Natl Acad Sci U S A. 2010 Jul 13;107(28):12698-703. 以下分析是基于该文章的精简版
#首先安装一些依赖包,这里有一些包年代久远可能会报错
  install.packages(c("impute","dynamicTreeCut","qvalue","flashClust","Hmisc","WGCNA"))

随后下载示例数据,该数据包括4组样本,分别是:

  • datExprA1 and datExprA2 – two data sets from the Illumina human ref-12 platform
  • datExprB1 and datExprB2 – data sets from the Illumina human ref-12 and Affymetrix HG-U133A platforms, respectively (datExprA1 and datExprB1 are the same).
  • probesI/A – probe set IDs for human ref-12 and HG-U133A platforms
  • genesI/A – gene symbols corresponding to probesI/A

数据预处理

首先筛选探针,进行gene_symbol的注释以及初筛等操作

load("/path/metaAnalysisData.RData")

library(WGCNA) 
datExprB1g = (collapseRows(datExprB1,genesI,probesI))[[1]] 
datExprB2g = (collapseRows(datExprB2,genesA,probesA))[[1]]

#您需要将分析限制在两个数据集中都表达的基因/探针上。
commonProbesA = intersect (rownames(datExprA1),rownames(datExprA2)) 
datExprA1p = datExprA1[commonProbesA,] 
datExprA2p = datExprA2[commonProbesA,] 
commonGenesB = intersect (rownames(datExprB1g),rownames(datExprB2g)) 
datExprB1g = datExprB1g[commonGenesB,] 
datExprB2g = datExprB2g[commonGenesB,]

接下来我们需要评估数据集间的关联,以判断这些数据可否进行联合分析,首先分别计算每个数据的的相容性如何?”目前基于转录组或芯片数据进行meta-analysis的方法很多,我们可以在数据库中寻找大量类似的实验结果用于meta-analysis,而WGCNA可以在转录组/芯片数据中构建无标度网络并将基因的表达水平与样本表型关联起来,这在转录组分析中发挥了十分重要的作用,在这里我们可以使用WGCNA将两组/两组以上的数据联合起来,用于阐述不同实验结果/不同物种间的基因表达模式的关联

  • Miller JA, Horvath S, Geschwind DH. (2010) Divergence of human and mouse brain transcriptome highlights Alzheimer disease pathways. Proc Natl Acad Sci U S A. 2010 Jul 13;107(28):12698-703. 以下分析是基于该文章的精简版
#首先安装一些依赖包,这里有一些包年代久远可能会报错
  install.packages(c("impute","dynamicTreeCut","qvalue","flashClust","Hmisc","WGCNA"))

数据预处理

首先筛选探针,进行gene_symbol的注释以及初筛等操作

load("/path/metaAnalysisData.RData")

library(WGCNA) 
library(flashClust)
datExprB1g = (collapseRows(datExprB1,genesI,probesI))[[1]] 
datExprB2g = (collapseRows(datExprB2,genesA,probesA))[[1]]

#您需要将分析限制在两个数据集中都表达的基因/探针上。
commonProbesA = intersect (rownames(datExprA1),rownames(datExprA2)) 
datExprA1p = datExprA1[commonProbesA,] 
datExprA2p = datExprA2[commonProbesA,] 
commonGenesB = intersect (rownames(datExprB1g),rownames(datExprB2g)) 
datExprB1g = datExprB1g[commonGenesB,] 
datExprB2g = datExprB2g[commonGenesB,]

接下来我们需要评估数据集间的关联,以判断这些数据可否进行联合分析,首先分别计算每个节点的加权网络连接度,随后绘制相关性散点图查看相关性与P值判断数据是否可以联合分析,B组数据由于来自不同的平台,数据间的相关性比较低,但是P值很显著(P = 2.9e-84)我们也可以将其用于后续的分析

softPower = 10 
rankExprA1= rank(rowMeans(datExprA1p)) 
rankExprA2= rank(rowMeans(datExprA2p)) 
random5000= sample(commonProbesA,5000) 
rankConnA1= rank(softConnectivity(t(datExprA1p[random5000,]),type="signed",power=softPower)) 
rankConnA2= rank(softConnectivity(t(datExprA2p[random5000,]),type="signed",power=softPower)) 
rankExprB1= rank(rowMeans(datExprB1g)) 
rankExprB2= rank(rowMeans(datExprB2g)) 
random5000= sample(commonGenesB,5000) 
rankConnB1= rank(softConnectivity(t(datExprB1g[random5000,]),type="signed",power=softPower)) 
rankConnB2= rank(softConnectivity(t(datExprB2g[random5000,]),type="signed",power=softPower))

par(mfrow=c(2,2)) 
verboseScatterplot(rankExprA1,rankExprA2, xlab="Ranked Expression (A1)", 
ylab="Ranked Expression (A2)") 
verboseScatterplot(rankConnA1,rankConnA2, xlab="Ranked Connectivity (A1)", 
ylab="Ranked Connectivity (A2)") 
verboseScatterplot(rankExprB1,rankExprB2, xlab="Ranked Expression (B1)", 
ylab="Ranked Expression (B2)") 
verboseScatterplot(rankConnB1,rankConnB2, xlab="Ranked Connectivity (B1)", 
ylab="Ranked Connectivity (B2)")

构建共表达网络

出于计算的原因和简单性,我们首先选择数据集A1中表达量最高的5000个探针(通常不会这样做),然后每个基因只保留1个探针(如上所述),总共保留4746个基因。

keepGenesExpr = rank(-rowMeans(datExprA1p))<=5000 
datExprA1g = datExprA1p[keepGenesExpr,] 
datExprA2g = datExprA2p[keepGenesExpr,] 
keepGenesDups = (collapseRows(datExprA1g,genesI,probesI))[[2]] 
datExprA1g = datExprA1g[keepGenesDups[,2],] 
datExprA2g = datExprA2g[keepGenesDups[,2],] 
rownames(datExprA1g)<-rownames(datExprA2g)<-keepGenesDups[,1]

随后计算连接度并构建TOM矩阵

adjacencyA1 = adjacency(t(datExprA1g),power=softPower,type="signed"); 
diag(adjacencyA1)=0 
dissTOMA1 = 1-TOMsimilarity(adjacencyA1, TOMType="signed") 
geneTreeA1 = flashClust(as.dist(dissTOMA1), method="average") 
adjacencyA2 = adjacency(t(datExprA2g),power=softPower,type="signed"); 
diag(adjacencyA2)=0 
dissTOMA2 = 1-TOMsimilarity(adjacencyA2, TOMType="signed") 
geneTreeA2 = flashClust(as.dist(dissTOMA2), method="average")

#绘制基因层次聚类树
par(mfrow=c(1,2)) 
plot(geneTreeA1,xlab="",sub="",main="Gene clustering on TOM-based dissimilarity (A1)", 
labels=FALSE,hang=0.04); 
plot(geneTreeA2,xlab="",sub="",main="Gene clustering on TOM-based dissimilarity (A2)", 
labels=FALSE,hang=0.04);

接下来,我们将根据数据集A1确定模块(在实际情况下,我们通常会构建对照数据集的模块作为参照)。我们使用此代码自动显示四个不同的模块拆分,可以从中进行选择。

mColorh=NULL 
for (ds in 0:3){ 
 tree = cutreeHybrid(dendro = geneTreeA1, pamStage=FALSE, 
 minClusterSize = (30-3*ds), cutHeight = 0.99, 
 deepSplit = ds, distM = dissTOMA1) 
 mColorh=cbind(mColorh,labels2colors(tree$labels)); 
} 
#pdf("Module_choices.pdf", height=10,width=25); 
plotDendroAndColors(geneTreeA1, mColorh, paste("dpSplt =",0:3), main = "",dendroLabels=FALSE); 
#dev.off() 
modulesA1 = mColorh[,1] # (Chosen based on plot below)
#详细过程我们需要参照cutreeHybrid这个函数,我们提供了4个整数。使用四个等级的群集拆分敏感度的粗略控制。值越高,将产生越来越多的小簇。
  • 在这里选择使用deepsplit=0(顶行),这样就会有少量的大模块。根据分析的目的,有时最好选择更多的小模块。在这种情况下,将选择1-3的深度分割值。

  • 接下来,我们计算每个模块的主成分。第一个PC被称为模块的特征基因(module eigengene [ME]),表示模块中所有基因的最大方差百分比。换句话说,如果我们展示模块X的ME做某事,那么模块X中的大多数基因也很有可能做同样的事情。

PCs1A = moduleEigengenes(t(datExprA1g), colors=modulesA1)
ME_1A = PCs1A$eigengenes
distPC1A = 1-abs(cor(ME_1A,use="p"))
distPC1A = ifelse(is.na(distPC1A), 0, distPC1A)
pcTree1A = hclust(as.dist(distPC1A),method="a")
MDS_1A = cmdscale(as.dist(distPC1A),2)
colorsA1 = names(table(modulesA1))

#绘图展示模块之间关联程度
plot(pcTree1A, xlab="",ylab="",main="",sub="")
plot(MDS_1A, col= colorsA1, main="MDS plot", cex=2, pch=19)
ordergenes = geneTreeA1$order
plot.mat(scale(log(datExprA1g[ordergenes,])) , rlabels= modulesA1[ordergenes], clabels=
           colnames(datExprA1g), rcols=modulesA1[ordergenes]) 
for (which.module in names(table(modulesA1))){
  ME = ME_1A[, paste("ME",which.module, sep="")]
  barplot(ME, col=which.module, main="", cex.main=2,
          ylab="eigengene expression",xlab="array sample")
}; 

#现在我们已经有了所有的WGCNA变量和模块定义,我们可以开始评估网络A1中#的模块在网络A2中的情况。作为定性评估,我们将A1中的模块强加给数据集A2
#的网络,然后绘制出结果网络。
plotDendroAndColors(geneTreeA1, modulesA1, "Modules", dendroLabels=FALSE, hang=0.03, addGuide=TRUE, 
guideHang=0.05, main="Gene dendrogram and module colors (A1)") 
plotDendroAndColors(geneTreeA2, modulesA1, "Modules", dendroLabels=FALSE, hang=0.03, addGuide=TRUE, 
guideHang=0.05, main="Gene dendrogram and module colors (A2)")
  • 我们可以从这些模块标签在A2的情况发现,它们具有非常好的保存性。需要注意的是,在第二个数据集中通常不可能看到明显的模型标签分组,即使存在显著的数据关联以及模块保留能力。

  • 为了量化这个结果,我们利用WGCNA库中内置的另一个函数:modulePreservation。此函数使用多种策略评估一项研究中的模块在另一项研究中的保存情况,并输出一个Z分数摘要。

  • 一般来说,Zsummary.pres的值越高,模块在数据集之间的保存程度越高:5<Z<10表示中度保存,而Z>10表示高度保存。灰色模块包含未聚类的基因,而金色模块包含随机基因。一般来说,这些模块的Z分数应该比大多数其他模块低。在这种情况下,我们发现所有模块都保存得很好。

multiExpr = list(A1=list(data=t(datExprA1g)),A2=list(data=t(datExprA2g))) 
multiColor = list(A1 = modulesA1) 
mp=modulePreservation(multiExpr,multiColor,referenceNetworks=1,verbose=3,networkType="signed", 
nPermutations=30,maxGoldModuleSize=100,maxModuleSize=400) 
stats = mp$preservation$Z$ref.A1$inColumnsAlsoPresentIn.A2 
stats[order(-stats[,2]),c(1:2)]

计算模块中的基因与ME的关联程度

Module membership (kME) 是一个有用的值,因为它可以用来测量每个基因和每个ME之间的相关性,因此即使是最初没有分配到模块的基因也可以包含在网络间的比较中。

geneModuleMembership1 = signedKME(t(datExprA1g), ME_1A) 
colnames(geneModuleMembership1)=paste("PC",colorsA1,".cor",sep=""); 
MMPvalue1=corPvalueStudent(as.matrix(geneModuleMembership1),dim(datExprA1g)[[2]]); 
colnames(MMPvalue1)=paste("PC",colorsA1,".pval",sep=""); 
Gene = rownames(datExprA1g) 
kMEtable1 = cbind(Gene,Gene,modulesA1) 
for (i in 1:length(colorsA1)) 
 kMEtable1 = cbind(kMEtable1, geneModuleMembership1[,i], MMPvalue1[,i]) 
colnames(kMEtable1)=c("PSID","Gene","Module",sort(c(colnames(geneModuleMembership1), 
colnames(MMPvalue1))))

#现在对A2重复上述步骤,使用来自A1的模块赋值来确定A2中的kME值。
# First calculate MEs for A2, since we haven't done that yet 
PCs2A = moduleEigengenes(t(datExprA2g), colors=modulesA1) 
ME_2A = PCs2A$eigengenes 
geneModuleMembership2 = signedKME(t(datExprA2g), ME_2A) 
colnames(geneModuleMembership1)=paste("PC",colorsA1,".cor",sep=""); 
MMPvalue2=corPvalueStudent(as.matrix(geneModuleMembership2),dim(datExprA2g)[[2]]); 
colnames(MMPvalue2)=paste("PC",colorsA1,".pval",sep=""); 
kMEtable2 = cbind(Gene,Gene,modulesA1) 
for (i in 1:length(colorsA1)) 
 kMEtable2 = cbind(kMEtable2, geneModuleMembership2[,i], MMPvalue2[,i]) 
colnames(kMEtable2)=colnames(kMEtable1)
  • 我们首先要做的是将A1中每个基因的kME值与A2中每个基因相应的kME值进行比较。具有高相关性的点的模块被高度保留。下面是所有基因(左)和被分配进该模块的基因子集(右)创建这些图的示例图像。
  • 我们可以做的第二件事是通过确定哪些基因在两个网络中都具有极高的kME值来确定哪些基因是两个网络中的枢纽。
#pdf("all_kMEtable2_vs_kMEtable1.pdf",height=8,width=8) 
for (c in 1:length(colorsA1)){ 
 verboseScatterplot(geneModuleMembership2[,c],geneModuleMembership1[,c],main=colorsA1[c], 
 xlab="kME in A2",ylab="kME in A1") 
}; 
#pdf("inModule_kMEtable2_vs_kMEtable1.pdf",height=8,width=8) 
for (c in 1:length(colorsA1)){ 
 inMod = modulesA1== colorsA1[c] 
 verboseScatterplot(geneModuleMembership2[inMod,c],geneModuleMembership1[inMod,c],main=colorsA1[c], 
 xlab="kME in A2",ylab="kME in A1") 
}; 

topGenesKME = NULL 
for (c in 1:length(colorsA1)){ 
 kMErank1 = rank(-geneModuleMembership1[,c]) 
 kMErank2 = rank(-geneModuleMembership2[,c]) 
 maxKMErank = rank(apply(cbind(kMErank1,kMErank2+.00001),1,max)) 
 topGenesKME = cbind(topGenesKME,Gene[maxKMErank<=10]) 
}; 
colnames(topGenesKME) = colorsA1

这两种类型的散点图传达了相似但不完全相同的信息。使用所有基因(左)可以包含所有正相关和负相关的基因,但通常也包含很多噪声(尽管在本例中没有)。只使用模块内基因(右)是评估hub基因在不同数据集间的保守程度:如果这些基因显示出集合间的相关性,那么位于图右上角的基因很可能是数据集之间的公共hub基因。(Hub基因是与MEs和模块内高连通性有显著相关性的基因)

注释模块以及后续分析

为了可视化生成的网络模块,我们可以从网络输出数据导入VisANTVisANT是一个独立的可视化java程序,可在http://VisANT.bu.edu/上获得。VisANT可以让你直观地看到一个模块中的中心基因,是大多数人用来制作模块图片的程序。关于如何使用VisANT的教程可以在网站上找到。我们可以使用作者封装的代码提取模块中的基因用于VisANT的输入文件

source("tutorialFunctions.R") 
for (co in colorsA1[colorsA1!="grey"])
 visantPrepOverall(modulesA1, co, t(datExprA1g), rownames(datExprA1g), 500, softPower, TRUE)

for (co in colorsA1[colorsA1!="grey"]) 
 visantPrepOverall(modulesA1, co, t(datExprA2g), rownames(datExprA2g), 500, softPower, TRUE)
  • 这个函数会将很多文件输出到当前目录中,每个模块都有两个文件:
    1) <module>_connectivityOverall.csv:此文件包含给定模块中从最高到最低模块内连接(kin)排序的所有基因及其平均表达的列表。所以排在第一位的基因是中枢基因。
    2) <module>_visantOverall.csv:此文件包含VisANT所需的所有输入。注意,只有前五列应该复制到VisANT中。前两列表示模块中拓扑重叠度最高的基因(第5列)。第3列必须是“0”,第4列是要绘制的线的颜色(“M1002”是橙色)

  • 通过该软件我们可以查看不同数据之间不同的表达模式,该示例中我们可以很清楚的发现SCAMP5是A1特异表达的,我们可以选择这样的基因进行后续的分析

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,558评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,002评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,036评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,024评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,144评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,255评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,295评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,068评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,478评论 1 305
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,789评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,965评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,649评论 4 336
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,267评论 3 318
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,982评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,223评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,800评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,847评论 2 351

推荐阅读更多精彩内容