对于基础科研同学而言,生信最大的作用可能就是筛选靶标,用于后续实验了。。。。
从GEO数据库,ArrayExpress数据库以及TCGA数据中获取芯片数据并从中筛选基因的流程我们已经介绍了很多,但是不知童鞋们是否有这样的困惑——筛选出来的基因数量过多?一张PPI网络图做出来三四百个基因,电脑直接就报警了!KEGG分析出来全是Cancer pathway,cell cycle这样的可能包含上百个基因的信号通路,进一步研究根本无从着手。今天就教大家几招如何进一步筛选基因,“ 刨”出我们想要的基因。
调整芯片数据差异基因筛选标准
一般我们筛选差异基因的标准是p-value<0.05和FC的绝对值>2,如果你做的是癌和癌旁组织的芯片数据分析,那么可以预见到的是,你将筛出好几千个基因,接下来不论是做GO和KEGG分析,还是做PPI网络分析都无法得到什么有效的结果。这里大家可以使用q-value<0.05以及提高FC的阈值来减少基因数量【满足最低标准p<0.05,其他可以自由调整的】。
KEGG模块分析
利用Cytoscape的App——ClueGO对差异基因进行分析,它可以对差异基因相关的KEGG信号通路进行模块分组,比如下图中Bladder cancer这一模块就包含了多个信号通路(淡蓝色)。接下来再进行PPI分析,从网络中筛选出拓扑结构处于中心位置的基因。
PPI网络筛选
先做PPI网络,在STRING中上调阈值,去除网络中孤立节点,然后再进行功能分析。
PPI网络模块分析
PPI网络中往往很多蛋白扎堆存在,Cytoscape中的MCODE插件可以将这些复杂的小团体从整个网络中抽提出来,接下来再单独进行功能分析。