(日常记录)GSEA富集分析软件的使用

常用富集分析包括GO富集、KEGG富集，这两种富集方式都是基于已经通过算法确定差异倍数的差异基因来分析的，而对于一些差异较小，但可能起着重要作用的基因，这两种富集方式则会使它们成为了漏网之鱼。为了涵盖所有具有差异基因的富集信息，此时需要用到富集分析软件GSEA（大概是基因的海洋,haha~)，GSEA首先通过foldchange值对你的基因（测试基因）进行排序，然后通过判断每个基因是否落在某个基因集（目标基因集）内，落入一个基因则加分，不落入则减分，计分方式会根据排序的foldchange值综合计算（具体怎么算的，可以看官网）。需要提到的是，因为GSEA会根据富集分数计算P值，所以每组样本数不可低于3，否则报错。接下来看一下GSEA的使用方式吧！

一、软件安装

地址：https://www.gsea-msigdb.org/gsea/downloads.jsp

选择合适自己系统的版本进行安装，安装比较简单，一直下一步就可以了。linux的需要自己再去查一下安装的命令。

二、文件准备

1、表达量矩阵文件

表达量矩阵文件大家应该都不陌生了，如果是自己的样本测序，公司会提供一个excel表格，里面包括基因ID，基因名，每个样本的基因表达量等。分析别人的数据，可以从GEO数据库中下载表达量矩阵文件。

然后我们需要对表达量矩阵文件进行简单的处理，首先提取矩阵文件的基因symbol、基因DESCRIPTION（这列在格式中必须有，如果有描述就直接提取出来，如果没有就自己添加一列，在下面的信息中都补上na）、基因样本的表达量放入新的excel表格中。然后在顶上添加两行，第一行内容为#1.2（符号是英文状态下的符号，固定死的，我也不知道什么意思，哈哈~），第二行填上你所有的基因数量和样本数量。最终格式如下图，然后将内容复制到txt中，GSEA表达量文件支持txt、pcl、res、gct这几种文件格式，常用gct，可以通过更改后缀名得到。

excel文件

gct格式

2、表型文件

第二个文件是表型文件，这个文件的意思就是编辑你的样本分组信息，第一行分别为样本总数，2，1（2,1默认，也不用修改），第二行为#，组1、组2，第三行为组1和组2分别的样本信息，与前面的表达量文件一致即可。表型文件只支持cls格式，可编辑好后通过修改后缀名得到。

三、上传文件及运行

打开GSEA软件，点击Browse for files上传准备好的文件。

GSEA主页

上传之后数据没有编写错误，会弹出NO errors的框，如果编写错误，可以店家Details查看具体信息，看看是哪里编写错误，软件会给到你修改建议。依次上传表达量文件和表型文件。

点击Run GSEA，Expression dataset选择上传的表达量文件，Gene sets database选择需要富集的基因集，Number of permutations选择1000，phenotype labels选择表型文件，比较顺序不需要改变，collapse/Remap to gene symbols，如果你的矩阵文件没有基因symbol，只有探针名，则需要选择collapse，使用基因ID和symbol则选择NO_Collapse，permutation type不需要改变，Chip platform探针的平台，使用探针名需要选择，使用基因ID和symbol就不用管它。最后点击下面的Run就开始运行啦

运行界面如下，运行成功后Status里会显示successful，不成功会出现error，可点击error查看失败原因。

四、结果解读

结果我不想写了，写累了，还是简单写一下吧，点击Success，进入index结果索引，主要关注下面两个部分即可。

这两个结果其实是互补的，只需要看其中一个结果。比如说CTL的，使用的基因集是免疫相关的。结果从上到下依次表示这个基因集里有4872的gene sets被检测，其中2105个在CTL中上调，name就意味着你处理之后的样本有2105个免疫相关gene sets是下调的。其中1282个的去值小于25%，1013个gene sets p值小于1%，1083个p值小于5%。然后是富集结果的snapshot，因为图太多了，它会选择性的展示p值较小的前20个genesets。

然后就html和excel格式的结果展示。

第一列为富集到的geneset的名字，点击Details可查看geneset里面具体的基因改变情况，然后这个表格还包括每个geneset的富集分数，q值，p值等。

最后看一下snapshot怎么看的

顶上是富集到的geneset的名字，可以看到是一个GSE的数据集（编号GSE21827）。绿色的线是富集分数的走向，这个富集分数线具有2个峰，在这两个峰的位置都有一个富集的最大值，但是在红色部分CTL上调基因中的富集分数更高，因此这个geneset总体在CTL中是上调趋势。黑色竖线代表落在这个geneset里的基因，可以根据竖线判断它的分布。下半部分是以基因为横坐标，信噪比signal2noise为纵坐标的一个基因变化图，左边部分为CTL中上调的基因，右边部分为处理组上调的基因。我感觉作用不是很大（可能我没发现它的作用，）。

总体就是这样的，我也还没有完全弄懂这个软件，继续学习中。。。