目前常用的几款差异表达进识别方法有:FC、T检验、SAM等
一、FC
FC(Fold Change)算法是最早用于识别两种不同的实验条件下基因表达水平存在差异的算法,其算法的原理是计算基因在两类样本中平均表达水平的倍数值,若该值达到预先设定的阈值(一般设置为2,在以2为底的对数表达比中为大于1或小于-1),则判定基因为差异表达(DE,different expression)基因,计算公式如下,其中,mean(X(i))与mean(Y(i))代表基因i在两类样本中的平均表达值:
FC算法非常简单、直接,但是它存在一些不足,比如:缺乏严格的统计控制、人为设定的阈值具有较大的主观性。若在一次试验中,基因表达水平改变程度较小,则设定较大的阈值会导致结果的假阴性率较高,但如果过多的减小阈值,又可能使结果的假阳性率升高。其次,由于表达量低的基因较表达量高的基因更容易在两类间产生大的倍数变化,导致FC方法偏向于识别基础表达量低的基因作为DE基因。此外,表达量低的基因更容易因为检测误差的影响而产生大的波动从而被FC方法判断为DE基因。
在很多实际应用中,常常有人把FC值做log2转换,log2fc 值相较于fc的有点在于:log2fc的值有正负值之分,很容易看出2个group之间的上下调关系>
关于limma包差异分析结果的logFC解释
㈡t检验
t检验(t-test),常用来识别两类样本中DE基因的算法。其主要原理为:对每一个基因计算一个t统计量来衡量两类样本中基因表达的差异,然后根据t分布计算显著性p值来衡量这种差异的显著性。计算公式如下,其中,分子代表基因i在两类样本中的平均表达差值,分母代表基因i在所有样本中的标准误:
由于t检验要求数据呈现正太分布,所以公式中基因的表达值为测量值经过标准化后的值,反应的是两类样本间基因表达的倍数变化,也存在FC方法同样的偏向性。此外,对基础表达量低的基因来说,一个微小变异程度(标准误)可能导致一个大的绝对t统计值,从而被识别为DE基因,即使在两类条件下这个基因的平均表达水平的差异很小。低表达的基因比高表达的基因更容易产生大的t统计量。已有研究指出,数据的信噪比会随着基因表达量的增高而降低,这就意味着,低表达的基因更容易受到噪声的影响而产生误差。因此,t检验同样倾向于识别表达水平低的基因作为DE基因。
㈢SAM算法
SAM(Significance analysis of microarrays)算法用于微阵列基因表达谱数据识别DE基因 。SAM算法与t检验相似,但为了使具有较小标准误的基因不会被误判为DE基因,SAM在t统计量的分母中增加了校正值,提高了t检验的稳定性。计算公式如下,其中S0 为样本残差标准误的校正值:
虽然SAM算法通过permutation算法计算出错误发现率(False Discovery Rate, FDR)来控制多重检验的错误率,降低了结果的假阳性率。但由于SAM算法是以t检验为基础,但它依旧存在与t检验相似的问题:偏向于识别在两类样本中表达水平低但倍数变化大的基因为DE基因。
简书上还有一些关于差异表达的文章,你可以也看看
【r<-生信|实战】用方差分析差异表达基因
基因芯片(Affymetrix)分析3:获取差异表达基因
差异表达基因
差异表达分析图标结果释义
参考资料:
1.赵发林, 闫晓光, 李康. 几种差异基因分析方法及筛选效果的比较[J]. 中国卫生统计, 2008, 25(4):354-356.
2.黄海燕 基于可重复性评价识别与癌相关的高表达基因