GSEA分析笔记

之前对芯片数据的分析，基本上就是limma包进行差异分析，然后对差异基因进行GO富集分析。GSEA（Gene Set Enrichment Analysis），顾名思义基因集富集分析，它是将待分析的基因与预先划分为基因集的基因进行比较，通过统计学计算，得出可能发挥关键作用的基因。这篇文章关于GSEA的原理讲的很棒：
https://www.jianshu.com/p/b409a5576ce1
下面我就记录下自己第一次进行GSEA分析的经历，首先是比较重要的Molecular Signatures Database，简称MSigDB:

进行GSEA分析需要的准备：

JAVA8.0以上
GSEA软件选择合适自己的版本下载
http://software.broadinstitute.org/gsea/downloads.jsp
分析数据（GSE14906.txt）

GSEA可支持的数据集有gct，txt，pcl不同数据集格式，需要进行不同的预处理，我这里直接用.txt文件，主要是简单，第一行是样本名，第一列是probeID，如下就行了：
分组信息(phe.cls)
分组信息只支持.cls，主要就三行。
第一行：61(样本数目) 2(分组个数) 1(固定是1);
第2行：#normal cancer 分组的标签可以自定义或者WT Control等；

第3行：normal cancer normal cancer normal ，分析数据中第一行对于的样本分组信息，要与第1，2行保持一致，本次分析设置如下：字节之间以空格分割

然后打开GSEA软件，选择load data，将以上两个文件load到软件中去

在Gene sets database中选择自己富集分析的类型，参考MSigDB中的说明进行选择，这里我把MSigDB的数据全部下载到本地了，故而在load data时，我已经将需要富集分析的databases.gmt文件load到软件中了，如下

我这次使用的是GSE14906数据集，在NCBI-GEO数据库中查到其芯片平台是这样的

因为我网络不好，所以我把所有GSEA的chip platform全部也下载到本地，同样的在chip platform选项下，选择对于的芯片平台，这里是必须要选择的，因为我的表达数据中GeneID例是probeID，GSEA在分析过程中，还会将我的probeID根据chip platform提供的探针注释信息，对其进行GeneID转换。其他设置都采用默认项即可，然后点击右下角的Run，开始运行

在运行完成后，左下角的对话框会显示“success”，然后单击“success”就会弹出分析结果的网页版

分析结果网页版：

本地分析结果：C:\Users\yourname\gsea_home\output\may09\my_analysis.Gsea.1557404128853，会有分析你的分析结果

注意事项：
1.一定要注意分析数据的格式，phenotype文件的格式
2.GSEA分析过程会极度依赖网络状态，所以如果你网络不好，将探针注释文件，MSigDB一定要下载到本地
3.不清楚的选项暂用默认选项
4.还是操作不成功，要会先前辈请教

参考文章：
https://blog.csdn.net/qazplm12_3/article/details/78561937
http://www.bioinfo-scrounger.com/archives/557

最后编辑于：2019.05.09 21:04:42