2 大规模假设检验

2.1 贯穿本章的例子

一份用于研究前列腺癌与基因关系的数据:102个人中50个正常,52个是癌症患者,统计每个人的6033个前列腺相关基因。
数据用6033 * 102维的矩阵X表示:
x_{ij} = i基因j病人的数据
则基因i的双样本t检验统计量为(latex显示有误,是均值):
t_i = \frac{\bar x_i(2) - \bar x_i(1)}{S_i}

latex错误补图

为了后续方便,将t转换为z,z_i = \Phi^{-1}(F_{100}(t_i))。因此:
H_{0i} : z_i \sim \mathcal N(0, 1)
6033个基因的z值

由于有6033多个假设要检验,因此需要多重检验修正,比如使用Bonferroni方法计算中心距4.31以上的才认为显著。但是似乎过于严格了,会降低正确发现率。

经验贝叶斯提供了一种宽松些的多重检验方法。

2.2 贝叶斯方案

由于数据集是H0和H1的混合,我们可以定义其中H0概率为\pi_0,H1概率为\pi_1,以及对应的概率密度函数f_0(z)f_1(z),对应样空间Z的概率累计函数F_0(Z)F_1(Z)。则对应的混合分布为:
f(z) = \pi_0f_0(z) + \pi_1f_1(z) \\ F(Z) = \pi_0F_0(Z) + \pi_1F_1(Z)
因此如果z \in Z,则z属于H0的概率为:
\phi(Z) = Pr(null|z \in Z) = \pi_0F_0(Z) / F(Z)
上述概率被称为“Bayes false discovery rate”,也可以写为Fdr(Z)
如果Z只包含一个点z_0
\phi(z_0) = Pr(null|z = z_0) = \pi_0f_0(z_0) / f(z_0)
被称为“local Bayes false discovery rate”,也写作fdr(z)

两者关系,在z点来说,Fdr是割线,fdr是切线

由于Z一般是(-\infty , z),后续用F(z)表示F((-\infty,z))

定义F_1(z) = F_0(z)^\gamma\ [\gamma < 1](Lehmann alternatives)则
log \{ \frac{fdr(z)}{1- fdr(z)} \} = log \{ \frac{Fdr(z)}{1- Fdr(z)} \} + log(\frac{1}{\gamma})

注意:\frac{fdr(z)}{1-fdr(z)} = \frac{\pi_0f_0(z)}{\pi_1f_1(z)}

Fdr(z)很小时
fdr(z)\approx Fdr(z)/\gamma

2.3 经验贝叶斯估计

2.3.1 评估方法

上一节的混合分布的定义中,f_0认为是已知的,\pi_0常常接近1,最重要的未知就是f_1
显然可以用经验贝叶斯方法来评估错误发现率\bar{Fdr}(z) \equiv \bar{\phi(z)} = \pi_0F_0(Z) / \bar{F}(Z)(简书显示有误,不是平方)

简书latex显示错误修正补图

其中分母为混合分布的经验分布。

2.3.2 效果好坏

满足条件的z的个数可以表示为:
N_+(Z) = N_0(Z) + N_1(Z)

关系视图

\bar{Fdr}(Z) = \frac{N\pi_0F_0(Z)}{N_+(Z)} (同样有显示错误,正确公式是下图)


其中未知参数为\pi_0,但是一般情况下\pi_0非常接近1,我们可以得到一个有参考意义的错误发现率上界\frac{NF_0(Z)}{N_+(Z)}
带入到2.1的例子中,如果我们Z取3倍标准差外,则错误发现率控制在0.166。

2.4 经验贝叶斯错误发现率的点估计

根据上文可知:
\phi(Z) = Fdr(Z)= e_0(Z)/e_+(Z)
其中e_+(Z)=N*F(Z)是阳性的期望数量,e_0(Z)是错误阳性的期望数量。
而我们也不知道错误发现的比率:
Fdp(Z)=N_0(Z)/N_+(Z)
据此可以得到3个相关数字():
\bar{Fdr(Z)} = e_0(Z)/N_+(Z), \phi(Z)=e_0(Z)/e_+(Z),Fdp(Z)=N_0(Z)/N_+(Z)

简书显示错误纠正

接下来会讨论它们之间的关系。

引理2.1
N_1已知前提下
E\{\bar{Fdr}(Z)|N_1(Z)\}\geq\phi_1(Z)\geq E\{Fdp(Z)|N_1(Z)\}


其中\phi_1(Z)=\frac{e_0(Z)}{e_0(Z) + N_1(Z)}

上述引理标明empirical Bayes false discovery rate预期比实际比例大。
如果将N_1(Z)做变量求期望,可以得到
\phi(Z) \geq E\{Fdp(Z)\} .
所以Bayes false discovery rate是Fdp的上界。

引理2.2
如果定义平方变异系数\gamma(Z) = var\{ N_+(Z) \} /e_+(Z)^2
则经验贝叶斯错误发现率与贝叶斯错误发现率之比


均值近似为1 + \gamma(Z),方差近似为\gamma(Z)

引理2.2告诉我们经验贝叶斯的精度取决于N_+(Z)。如果假设z_i间独立,可以得到更有意思的结果。
z_i互相独立,则N_+是二项分布:
N_+(Z) \sim Bi(N, F(Z))
平方变异系数为:
\gamma(Z) = \frac{1 - F(Z)}{NF(Z)} = \frac{1 - F(Z)}{e_+(Z) }
由于我们感兴趣的F(Z)一般很小,则\gamma(Z) \approx 1/e_+(Z)。则根据引理2.2,经验贝叶斯错误发现率与贝叶斯错误发现率之比:均值近似为1 + 1/e_+(Z),方差近似为1/e_+(Z)
其中的关键为e_+(Z)和独立,带入2.1的例子中,可知经验贝叶斯错误发现率与贝叶斯错误发现率之比近似为1.02标准差为0.14,可以据此构建置信区间。

如果在保持独立前提下,假设N服从泊松分布,即N \sim Poi(\eta):

引理2.3
在泊松独立假设下:
E \{Fdp(Z) \} = \phi(Z) * [ 1- exp(-e_+(Z))]
其中e_+(Z) = E \{ N_+ (Z) \} = \eta * F(Z)

大规模推断中一般H1也是存在的,因此取\pi_0=1做上界存在高估,一种简单的修正:
\widetilde{Fdr(Z)}=e_0(Z) / (N_+(Z) + 1)

引理2.4
在泊松独立前提下
E\{ \widetilde{Fdr(Z)} \} = E \{ Fdp(Z) \} = \phi(Z) * [ 1- exp(-e_+(Z))]

注意:当e_+(Z)比较小时(比如小于10),两种估计都可能存在严重偏差。

2.5 独立 vs 相关

独立假设对FDR来说非常重要,但是非常危险。在第7和第8章会展开讨论。

2.6 从其它个体信息中学习2

考虑类似上章的贝叶斯结构
\mu \sim g(.) \ and\ z|\mu \sim f_\mu(z)
我们可以用它来模拟假设检验:
g(\mu) = \pi_0\Delta_0(\mu) + (1 - \pi_0)g_1(\mu)
其中\Delta_0德尔塔函数g_1(\mu)是H1的先验概率密度函数。
本章例子中,可以通过其它基因信息评估\pi_0g_1,再通过贝叶斯理论结合z_i,对基因i进行推断。详细会在后面的章节展开。

本章概念

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,128评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,316评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,737评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,283评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,384评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,458评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,467评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,251评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,688评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,980评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,155评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,818评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,492评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,142评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,382评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,020评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,044评论 2 352

推荐阅读更多精彩内容