Odds Ratios:
这里的odds ratios是事情发生与事情不发生的比
先举个例子吧,若有两个人支持某球队赢,四个人支持球队输,那么支持赢的odds ratios = 2/4;对比概率来看,支持球队赢的概率为2/6
若有五个人支持某球队赢,三个人支持球队输,那么odds ratios = 5/3
若以数轴来表示,假设说一共7个人,支持某球队的有6个人,反对该球队的有1人,那么支持的odds ratio为6/1;反对的为1/6
若以数轴来表示:
Log(Odds Ratios)
接着上一个例子,在数轴上这样表示会导致长度不均一,不便于观察,所以这时候我们往往求对数,来表示
Odds Ratios在生物学上的运用:
假设说我们的总体有356人,有29人患癌症,327人不患癌症;有140人有突变基因,216人没有突变基因,那么我们可以利用odds ratio来确定突变基因和癌症之间是否有关系
假设某个人有突变基因,是否比例越高对应患癌的几率越高
那么有突变基因,对应人群的患癌比率为23/117;没有突变基因,对应人群患癌比率为6/210
那么:
对数化:
1. 利用fisher test检测
基于超几何检验的p_value为0.00001
2. 利用chi test检测
患癌概率p=29/356=0.08
对应有突变基因的人群,患癌人数为140 x 0.08 = 11.2,没患癌的为140-11.2=128.8
对应没有突变基因的人群,患癌人数为216 x 0.08 = 17.3,没患癌的为216-17.3=198.7
注意,左图为观测值,右图为期望值,利用chi test检测的p值0.00001
3. 利用wald test检测
该方法利用了odds ratio服从正态分布,
首先随机生成10000个log(odds ratio),显然为0的频数最多,这个分布是一个正态分布,这样做的目的是检验随机性,此时基因突变于是否患癌就没有联系了,此过程完全随机
步骤:
- 在总的10000个样本中随机挑选300-400个样本,例如挑325个
2.对于每个样本,随机挑选0-1之间的随机数,利用这325个样品和对应的随机数拟合一个分布
3.如果随机数小于0.08,则该样本患癌
4.对于每个样本,再次随机挑选0-1之间的随机数,利用这325个样品和对应的随机数再次拟合一个分布
5.如果随机数小于0.39(140/356=0.39),则该样本存在变异基因
在一次试验中最终你会得到一个随机数矩阵:
该矩阵是对我们上述步骤的一个统计,我推测是哪个数量少取哪个
基于上面的矩阵,我们重复10000次上述步骤的取样来计算有突变基因/无突变基因的odds ratio
然后拟合一个正态分布:
这个分布的均值和标准差分别为 0和0.43
反过来,我们回到刚才的data:
估计下参数:
其标准差为0.47,和随机法的分布差不多
对于这个数据
我们利用随机法产生的正态分布来计算p_value为0.00005,那么说明表格横纵变量相关
tip:wald test的核心思想是基于我们的data做个阈值判断,随机产生一个分布,然后利用我们的data对应于该随机产生的分布去计算p_value,来判断显著性