4 控制错误发现率

4.1 正确与错误的发现

假设我们有一种决策方式D,它对N个假设决策如下:

图中a为错误的发现,b为正确的发现

则FWER为a大于0的概率,而a/R被称为错误发现比率(false discovery proportion)

4.2 Benjamini和Hochberg的FDR控制算法

如果在零假设下的P值服从01均匀分布
H_{0i}:p_i \sim U(0,1)
定义排序后的p值为
p_{(1)}, p_{(2)},..., p_{(N)}

Benjamini–Hochberg过程为:取q在0到1之间,定义i_{max}为满足p_{i} \leq \frac{i} {N} q的最大i,并拒绝所有i \leq i_{max}对应的H_{0(i)}

定理4.1
如果真正的零假设对应p值是互相独立的,则BH过程对应的BH(q)错误发现比例期望值为q
E \{ Fdp_{BH(q)} \} = \pi_0 q \leq q
其中\pi_0 = N_0 / N

显然FDR比FWER更自由,那它可信么?下面是一些问题,它们会在后面通过经验贝叶斯解决。

  • 定理4.1依赖于零假设对应p值是互相独立,或者它们不是负相关的也可以使用。这常常是不切实际的
  • 如果R=0,则a/R必须定义为0;或者限制R必须大于0,但这常常不大可能
  • 控制错误发现率真的比控制错误率好么?
  • q如何选择?
  • 传统p值在零假设逻辑下进行计算,在大规模假设检验中不太合适

4.3 经验贝叶斯解释

如果用F_0表示零假设的cdf,则p值为:
p_i = F_0(z_i)
z_i可以等于p_i,此时F_0(z_i) \sim U(0,1)
z排序:z_{(1)} \leq z_{(2)} \leq,...,z_{(N)}
由于z_i的经验cdf值为\# \{ z_i \leq z \} / N,则z_i的经验cdf值为

结合上节,BH的阈值可转换为:




结合第二章大规模假设检验2.3,左式为经验贝叶斯错误发现率(分子为H0误判累积概率,分母为推翻零假设的混合概率估计)。

根据贝叶斯规则:
Fdr(z) = \pi_0F_0(z)/F(z)

由于\pi_0未知,可以取它的上界1(会导致更加严格)计算,此时:


并拒绝小于z_{max}的H0。此时频率派与贝叶斯派的结果得到统一!
在贝叶斯视角下,前文提到的一些问题得到解答:

  • q的选择:q是零假设被错误拒绝的估计贝叶斯概率(先验\pi_0取上界1)。它更好理解,而且不再是频率,因此没有R=0时的问题。
  • 独立性假设:Fdr(z) = \pi_0F_0(z)/F(z),此处z是向量,而我们考虑的是多元累积概率。而用到的是F的经验估计。因此这中间不再关注z_i间是否独立。
  • 决策标准:HB过程仅控制Fdp的期望就够了么?这依赖于Fdr估计的精确度,还有Fdr = E \{ Fdp \}的精确度。
  • 左尾、右尾和双尾推断:从贝叶斯观念看,双尾的后验推断下拒绝域Z范围更大、精度更低
  • 假阴性发现率:从本文开头的图可知Fnp = (N_1 - b) / (N - R),容易发现贝叶斯解释同样适用于Fnp

4.4 FDR控制是“假设检验”么

一般认为BH过程是多重假设检验过程,但是在4.3的解释中似乎不太像,怎么理解它呢?
假设我们选择的决策区间为\mathcal R,H0下落入区间的期望数为e_0 ( R),R为观测到的显著数,则估计的错误发现率为:


由于当它小于q时我们认为这R个假设显著,也就是判断等价于为R的不等式

在泊松独立假设下


显然可以找到某个显著水平为“\alpha”级别的显著规则
R \geq Q_\alpha
经验贝叶斯发现率控制后,会处于“R个发现全部为真”和“R个发现中存在真”之间。它更像是一个估计而不是检验统计量:对R个发现中的错误比例进行估计。

4.5 Benjamini–Hochberg算法的变种

以下介绍两种。

  • 评估\pi_0
    HB相当于将\pi_0取上界1来评估,会存在高估,如何更准确评估\pi_0呢?
    如果定义一个没有正确发现的区间


    如果将N_+的观测值带入,可以得到

    一般区间的取法为,找一个以H0为中心划一个区间


    事实上这个概率估算并不特别重要,\pi_0取0.9与取1的差异非常小,更重要也更难的是如何计算概率密度函数,会在第6章展开。

  • 微阵列的显著性分析
    如第2章中的例子,如果X是一个N*n的矩阵,其分为实验组和对照组,则我们可以计算得到向量\mathcal z = (z_1,z_2,...,z_N)'

    1 此算法构建B个N*n的矩阵X^*,每一个矩阵都是由原始矩阵随机排序后得到的(将原来的实验组与对照组混合,随机分为两组得到矩阵,重复B次),可以计算对应的z^*;
    2 对每个矩阵z^*内的值进行排序,记作z^{*b},则可计算


    对应的也可以将z排序得到Z
    3 绘制


4 选择一个正的常数\Delta,定义如下区间


也就是说C_{up}是第一个Z_i超出经验区间的点,C_{lo}是第一个低于经验区间的点。
上图中\Delta=0.7C_{up}(\Delta)=3.29C_{lo}(\Delta)=-3.34
5 定义R(\Delta)[C_{lo}(\Delta), C_{up}(\Delta)]区间外的z_i的数量,而R^*(\Delta)是对应的z_i^{*b}数量
6 最终可以计算得到对应的

SAM过程通过搜寻\Delta,使6中结果等于预设的q,从而控制FDR水平。
为什么可以控制?
将4区间外的认为显著,则显著的累积经验概率为

同理,零假设下显著的累积经验概率为

因此
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,923评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,154评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,775评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,960评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,976评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,972评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,893评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,709评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,159评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,400评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,552评论 1 346
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,265评论 5 341
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,876评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,528评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,701评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,552评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,451评论 2 352

推荐阅读更多精彩内容