之前对芯片数据的分析,基本上就是limma包进行差异分析,然后对差异基因进行GO富集分析。GSEA(Gene Set Enrichment Analysis),顾名思义基因集富集分析,它是将待分析的基因与预先划分为基因集的基因进行比较,通过统计学计算,得出可能发挥关键作用的基因。这篇文章关于GSEA的原理讲的很棒:
https://www.jianshu.com/p/b409a5576ce1
下面我就记录下自己第一次进行GSEA分析的经历,首先是比较重要的Molecular Signatures Database,简称MSigDB:
进行GSEA分析需要的准备:
JAVA8.0以上
-
GSEA软件 选择合适自己的版本下载
http://software.broadinstitute.org/gsea/downloads.jsp
-
分析数据(GSE14906.txt)
GSEA可支持的数据集有gct,txt,pcl不同数据集格式,需要进行不同的预处理,我这里直接用.txt文件,主要是简单,第一行是样本名,第一列是probeID,如下就行了:
-
分组信息(phe.cls)
第3行:normal cancer normal cancer normal ,分析数据中第一行对于的样本分组信息,要与第1,2行保持一致,本次分析设置如下:字节之间以空格分割
分组信息只支持.cls,主要就三行。
第一行:61(样本数目) 2(分组个数) 1(固定是1);
第2行:#normal cancer 分组的标签可以自定义或者WT Control等;
注意事项:
1.一定要注意分析数据的格式,phenotype文件的格式
2.GSEA分析过程会极度依赖网络状态,所以如果你网络不好,将探针注释文件,MSigDB一定要下载到本地
3.不清楚的选项暂用默认选项
4.还是操作不成功,要会先前辈请教
参考文章:
https://blog.csdn.net/qazplm12_3/article/details/78561937
http://www.bioinfo-scrounger.com/archives/557