记录跟差异基因分析相关的几个概念,主要摘自《R与Bioconductor》一书。
基因表达差异的显著性分析
简称表达差异分析,其目的是比较两个条件(包括种属、表型等)下的基因表达差异,通过一定的统计学方法,从中识别出与条件相关的特异性基因,然后进一步分析这些特异性基因的生物学意义。
基因表达差异分析的第一步是要识别在两个条件下有显著性表达差异的基因,简称差异表达基因。那么怎样才能称得上显著性表达差异?通常是指一个基因在两个条件中表达水平的检测值差异具有统计学意义,往往基于一定的统计假设。
常用的算法有三类:
- 倍数分析 - 计算每一个基因在两个条件下的比值,若大于给定阈值,则为差异表达基因;
- 经典统计模型(如t检验)方法 - 计算表达差异的置信度,选取一定P值以下的作为差异表达基因;
- 机器学习 - 进行特征(基因)选择,包括贝叶斯模型、支持向量机或者随机森林等。
得到差异表达分析后,通常会进行基因本体论和通路分析(通常称为下游分析)。
基因本体论分析
基因本体论(Gene Onotology, GO)分析包括GO注释和富集分析。
GO是基因本体联合会(Gene Ontology Consortium)所建立的数据库,它由一组预先定义好的术语(GO term)组成,这组术语对基因和蛋白质功能进行限定和描述,适合于各种物种,并能伴随研究不断深入而更新。GO中的每个术语都有唯一的一个GO ID,GO的所有术语由有向无环图来相互联系,术语之间通常有三种关系:"is_a","part_of"和"regulates"。
Gene Ontology可分为分子功能(Molecular Function),生物过程(biological process)和细胞组成(cellular component)三个部分。蛋白质或者基因可以通过ID对应或者序列注释的方法找到与之对应的GO号,而GO号可对应到Term,即功能类别或者细胞定位。
GO注释,就是将表示基因或其产物的ID映射到一组GO的ID上,用这组GO term来描述这个基因。实际应用中,人们更关心差异表达基因(或一组基因)的共同点,分析它们所对应GO的分布情况。
通过加入一些统计模型,使分析更加深入,可能会产生更有生物意义的发现。GO富集分析,就是基于这么一个思想的分析方法。GO富集分析的统计学基础是超几何分布,简单而言就是根据Fisher精确检验对每个GO term计算一个P值。
$$
P=\frac{(\frac{M}{k})(\frac{N-M}{n-k})}{(\frac{N}{n})}
$$
公式显示查看博客
- N表示此次研究中(比如一个芯片上)所有基因总数;
- n表示N中差异表达基因的总数;
- M表示N中术语某个GO term的基因个数
- k表示n中属于某个GO term的基因个数
通路分析
通路分析包括通路注释和通路富集分析。通路富集分析的基本思路、统计模型等和GO富集分析如出一辙。常用的公共通路数据库主要有KEGG(Kyoto encyclopedia of genes and genomes)、BioCarta和GenMAPP(Gene map annotator and pathway profiler),最为著名的是KEGG库中的代谢通路,它几乎成了通路注释的代名词。
附上一个比较详细的介绍链接:基因芯片数据GO和KEGG功能分析