Application of weighted gene co-expression network analysis to identify key modules and hub genes in oral squamous cell carcinoma tumorigenesis
引言
这篇文章是发在18年oncotarget上的,可以说是正儿八经的注水文章,但由于我最近在做WGCNA,想借鉴更多的人是怎样做这一部分的,所以拿出来认真的阅读,让我们也学习一下水文章的套路。
思路
- 选取Top5000个基因做WGCNA,寻找软阈值,将临近矩阵变成拓扑交叉矩阵,这样可以计算节点的连接度,通过TOM将相似的基因表达模块聚类,最后计算cutline。
- 通过计算ME值和临床信息确定和肿瘤相关的模块、
- 富集分析
- 确定模块中的hub gene,因为hub gene被认为是最关键的基因。在一个模块中排名前30的基因被认为是hub-gene并被送去继续分析
- GEPIA的数据用来做生存分析,将P小于0.05的挑出来,并将排名前5的基因挑出来。
- 用另一套GEO数据做验证,先做差异分析,看一下交集情况。转录水平的验证通过TCGA数据库进行。
- 通过CBio cancer genomics partal分析10个基因在样本间的基因改变,以及他们与其他的基因联系。
结果与结论
-
将20027个基因做方差分析,取前5000个基因做WGCNA,得到如下聚类。
-
WGCNA选取阈值
-
相关性分析
开始各种相关性分析,模块之间的相关性,模块和表型的相关性。最后发现turquoise和brown模块和表型的相关性最高。
4 寻找hub gene
module membership vs 基因显著性 的相关性
挑出Top前30的基因进行可视化
5 生存分析
挑出前30基因进行生存分析,将TOP5的生存分析结果展现出来
6 富集分析
7 用另一套数据集做验证
做了差异分析,将差异基因和模块中的基因做交集。(这能说明啥呢,hmmm...实验设计的有点无语,这也叫验证嘛?)
8 数据库的转录组验证
文中没给出用的哪种统计学方法,也没有纵坐标,所以大家将就看吧。
9 数据库中找出这些基因的IHC免疫组化,从分子水平上验证
褐色是表达, 蓝色是细胞核不表达。这个数据库是The human protein atlas database
10 TCGA HNSC数据库看基因改变程度
B图:10个hub gene在百分之多少的病人中改变了
A图:10个基因各种改变的频率
C图:网络,10个基因和其他50个显著改变基因之间的关系。并展示了基因和药物的关系
个人觉得,后面几个数据库的应用还是以前没见过的,可以拿来借鉴下。