2.1 贯穿本章的例子
一份用于研究前列腺癌与基因关系的数据:102个人中50个正常,52个是癌症患者,统计每个人的6033个前列腺相关基因。
数据用维的矩阵表示:
则基因i的双样本t检验统计量为(latex显示有误,是均值):
为了后续方便,将t转换为z,。因此:
由于有6033多个假设要检验,因此需要多重检验修正,比如使用Bonferroni方法计算中心距4.31以上的才认为显著。但是似乎过于严格了,会降低正确发现率。
经验贝叶斯提供了一种宽松些的多重检验方法。
2.2 贝叶斯方案
由于数据集是H0和H1的混合,我们可以定义其中H0概率为,H1概率为,以及对应的概率密度函数和,对应样空间的概率累计函数和。则对应的混合分布为:
因此如果,则属于H0的概率为:
上述概率被称为“Bayes false discovery rate”,也可以写为
如果只包含一个点:
被称为“local Bayes false discovery rate”,也写作
由于一般是,后续用表示
定义(Lehmann alternatives)则
注意:
当很小时
2.3 经验贝叶斯估计
2.3.1 评估方法
上一节的混合分布的定义中,认为是已知的,常常接近1,最重要的未知就是
显然可以用经验贝叶斯方法来评估错误发现率(简书显示有误,不是平方)
其中分母为混合分布的经验分布。
2.3.2 效果好坏
满足条件的的个数可以表示为:
则 (同样有显示错误,正确公式是下图)
其中未知参数为,但是一般情况下非常接近1,我们可以得到一个有参考意义的错误发现率上界
带入到2.1的例子中,如果我们取3倍标准差外,则错误发现率控制在0.166。
2.4 经验贝叶斯错误发现率的点估计
根据上文可知:
其中是阳性的期望数量,是错误阳性的期望数量。
而我们也不知道错误发现的比率:
据此可以得到3个相关数字():
接下来会讨论它们之间的关系。
引理2.1
在已知前提下
其中
上述引理标明empirical Bayes false discovery rate预期比实际比例大。
如果将做变量求期望,可以得到
所以Bayes false discovery rate是Fdp的上界。
引理2.2
如果定义平方变异系数
则经验贝叶斯错误发现率与贝叶斯错误发现率之比
均值近似为,方差近似为
引理2.2告诉我们经验贝叶斯的精度取决于。如果假设间独立,可以得到更有意思的结果。
设互相独立,则是二项分布:
平方变异系数为:
由于我们感兴趣的一般很小,则。则根据引理2.2,经验贝叶斯错误发现率与贝叶斯错误发现率之比:均值近似为,方差近似为
其中的关键为和独立,带入2.1的例子中,可知经验贝叶斯错误发现率与贝叶斯错误发现率之比近似为1.02标准差为0.14,可以据此构建置信区间。
如果在保持独立前提下,假设N服从泊松分布,即:
引理2.3
在泊松独立假设下:
其中
大规模推断中一般H1也是存在的,因此取做上界存在高估,一种简单的修正:
引理2.4
在泊松独立前提下
注意:当比较小时(比如小于10),两种估计都可能存在严重偏差。
2.5 独立 vs 相关
独立假设对FDR来说非常重要,但是非常危险。在第7和第8章会展开讨论。
2.6 从其它个体信息中学习2
考虑类似上章的贝叶斯结构
我们可以用它来模拟假设检验:
其中是德尔塔函数,是H1的先验概率密度函数。
本章例子中,可以通过其它基因信息评估和,再通过贝叶斯理论结合,对基因i进行推断。详细会在后面的章节展开。