数据挖掘中的LogFC,p值和FDR值是什么?

GEO数据挖掘或转录组分析差异表达基因时,结果中会出现Log2FC,p值和FDR值,这三个值是生信技能树生信爆款入门课程geo数据挖掘差异基因筛选提到的重点。这些个值是什么意思呢?为拓展课堂所学知识,现在对他们做下总结。

1logFC

1.1 logFC是什么

差异倍数(fold change),fold change翻译过来就是倍数变化。limma接受的输入参数就是一个表达矩阵,而且是log后的表达矩阵(以2为底)。

1.2logFC计算举例

logFC这一列的值,其实就是输入的表达矩阵中case一组的平均表达量减去control一组的平均表达量的值,那么就会有正负之分,代表了case相当于control组来说,该基因是上调还是下调。
假设A基因表达值为1,B表达值为3,那么B的表达就是A的3倍。一般我们都用count、TPM或FPKM来衡量基因表达水平,所以基因表达值肯定是非负数,那么fold change的取值就是(0, +∞)。
为什么我们经常看到差异基因里负数代表下调、正数代表上调?因为我们用了log2 fold change。
当expr(A) < expr(B)时,B对A的fold change就大于1,log2 fold change就大于0(见下图),B相对A就是上调;
当expr(A) > expr(B)时,B对A的fold change就小于1,log2 fold change就小于0。通常为了防止取log2时产生NA,我们会给表达值加1(或者一个极小的数),也就是log2(B+1) - log2(A+1)。


image.png

1.3为什么不直接用表达之差,差直接有正负啊?

假设A表达为1,B表达为8,C表达为64;直接用差B相对A就上调了7,C就相对B上调了56;用log2 fold change,B相对A就上调了3,C相对B也只上调了3. 通过测序观察我们发现,不同基因在细胞里的表达差异非常巨大,所以直接用差显然不合适,用log2 fold change更能表示相对的变化趋势。

1.4logFC取值多少合适呢

log2FC中的FC即 fold change,表示两样品(组)间表达量的比值,对其取以2为底的对数之后即为log2FC。一般默认取log2FC绝对值大于1为差异基因的筛选标准;
据多数文献报道 有取1得 , 1/2/1.5 也都有。这个没有规定,你想多少都可以,也要结合自己的数据,如果取1.5你找不到差异基因就不找了把数据扔了吗。
可以,这个标准由自己定,在神经系统方面,微小的变化都会产生效应。另外自己注意看看芯片数据是不是有批次效应,如果不去除批次效应,计算差异gene可能存在问题。另外,甲基化信号值的差异分析也许不应该是看logFC,也要注意哦。

2.P值

值是在统计学的范畴假设检验首先必须要有假设,我们假设A和B的表达没有差异(H0,零假设),然后基于此假设,通过t test(以RT-PCR为例)算出我们观测到的A和B出现的概率,就得到了P-value,如果P-value<0.05,那么说明小概率事件出现了,我们应该拒绝零假设,即A和B的表达不一样,即有显著差异。
logFC 就是倍数变化取对数(也有说不是对数就是倍数的,但大多数人都按对数来的),-logP.val 就是 p 值取对数然后加负号。因为 p 值一般都很小,所以一般取对数做图。然后又因为一般 p < 1 所以取对数都是负值,我们为了作图方便所以加个负号。举例,p = 0.01 取 -logP 之后变成 2 、p = 0.001 变成 3。你看这就很好做图啊。


image.png

显著性只能说明我们的数据之间具有统计学上的显著性,要看上调下调必须回去看差异倍数。

3.FDR

即False Discovery Rate错误发现率,是通过对差异显著性p值(p-value)进行校正得到的。由于转录组测序的差异表达分析是对大量的基因表达值进行独立的统计假设检验,会存在假阳性问题,因此在进行差异表达分析过程中,采用了公认的Benjamini-Hochberg校正方法对原有假设检验得到的显著性p值(p-value)进行校正,并最终采用FDR作为差异表达基因筛选的关键指标。一般取FDR<0.01或者0.05作为默认标准。

这两个指标的选取一般是按照经验值去筛选的,并非完全不可以调整。在实验差异基因数目过低或者过高,可以对指标进行微调。

实际上经常看到的差异表达火山图(如下图)里的几条虚线就是这两个指标的体现。

image.png

参考文献
2019-12-05(关于logfc和p值)
差异表达基因时的Log2FC和FDR值的含义?
关于limma包差异分析结果的logFC解释
差异表达基因分析:差异倍数( fold change),差异的显著性(P- value)|火山图

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,496评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,407评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,632评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,180评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,198评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,165评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,052评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,910评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,324评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,542评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,711评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,424评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,017评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,668评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,823评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,722评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,611评论 2 353

推荐阅读更多精彩内容