转录组分析传送门
NGS手把手教学之零基础RNA-seq转录组分析实践,两套方案(2022年最新)
通路富集分析简介
GO富集详解(更新中)
KEGG富集详解(待更新)
Reactome富集详解(待更新)
富集分析结果可视化大全(待更新)
目录
- 常用的通路分析种类
-- 1.1 GO功能分类
-- 1.2 KEGG种类 - 常用的通路分析方法
-- 2.1 过表现分析(Over Representation Analysis: ORA)
-- 2.2 基因集合富集分析(Gene Set Enrichment Analysis, GSEA)
1. 常用的通路分析种类
1.1 GO功能分类
- Molecular Function(MF): 分子功能
基因产物的分子活动
- Cellular Componen(CC): 细胞结构组成
该基因产物的细胞内活动区域
- Biological Process(BP): 生物过程
由多个基因参与的通路或者大型的生物过程
1.2 KEGG种类
分为7大类
- Metabolism 代谢通路
- Genetic information processing 基因通路
- Environmental information processing 环境通路
- Cellular processes 细胞通路
- Organismal systems 组织通路
- Human diseases 人类疾病通路
- Drug development 药物开发通路
2. 常用的通路分析方法
2.1 过表现分析(Over Representation Analysis: ORA)
最常见的例子就是通过转录组分析出来的有表达差异的基因(DEGs)来寻找已知的通路。计算公式就是一个超几何概率分布:
Fig1
N: 数据库里的所有基因数量
M: 已知的直接或间接和该通路有关的基因数量
n: DEGs的全体数量
k: 和该通路有关的DEGs数量
举个栗子,假设在一次转录组测序中得到了17,980个有注释的基因,其中57个被确定为有表达差异(DEGs)。在这57个DEGs里,有28个出现在了一条通路上,那么请计算一下这条通路是不小心随机出现的还是另有图谋的。
d <- data.frame(gene.not.interest=c(2613, 15310), gene.in.interest=c(28, 29))
row.names(d) <- c("In_category", "not_in_category")
d
## gene.not.interest gene.in.interest
## In_category 2613 28
## not_in_category 15310 29
然后用Fisher’s exact test来验证这个超几何概率分布。
fisher.test(d, alternative = "greater")
##
## Fisher's Exact Test for Count Data
##
## data: d
## p-value = 1
## alternative hypothesis: true odds ratio is greater than 1
## 95 percent confidence interval:
## 0.110242 Inf
## sample estimates:
## odds ratio
## 0.1767937
2.2 基因集合富集分析(Gene Set Enrichment Analysis, GSEA)
刚才的ORA法有一个明显的缺陷,就是只关注了DEGs,但没有明显表达变化的基因真的就不起作用了吗?明显不是这样的。GSEA的算法要比ORA复杂,也是近年来富集分析的主流。
GSEA的计算主有三个关键步骤。
- 计算富集分数(Enrichment Score:ES)
- 计算ES的显著水平
- 多重比较矫正
R语言包clusterProfiler, DOSE, meshes及 ReactomePA都支持这个算法。
分析教程会后续详细展开。