离散型数据检验方法学习

二项检验

二项分布是指统计变量中只有性质不同的两箱群体的概率分布,两个观测值是对立的。二项分布描述了n次实验中恰好有k次成功的概率。
二项分布定义:

  1. 任意一次事件中,A只有发生和不发生两种情况,概率分别为P和1-P
  2. 在相同的条件下,进行N次独立重复试验,用X表示N次事件中A发生的次数,那么X符合二项分布,基座X~B(N,P),也叫作伯努利分布,可以用下式表示。
    P(X=k)=C_{n}^{k}P^{k}(1-P)^{n-k}

二项检验的意义:通过样本数据判断整体是否服从指定概率P的二项分布。
二项分布统计量
Z = \frac{k+-0.5 -np}{\sqrt{np(1-p)}}
二项分布例子:
某地老年人比重约为14.7%。随机抽取了400名居民,发现其中57人为老年人。根据调查结果是否支持该市老年人比重为14.7%的结论。

import scipy.stats as st 
st.binom_test(57,n=400,p=0.147)
p-value = 0.8876
p-value >0.05,调查结果支持该市老年人比重为14.7%的结论

对应到日常工作中,对于甲基化位点研究,甲基化的位点的甲基化水平符合二项分布。

样本比例检验

比例检验是基于二项分布情况来讨论的。
样本比例检验主要包含单样本比例检验和双样本比例检验;单样本比例检验是检验n次独立重复试验中,事件A出现的频率大小与给定频率之间是否存在显著差异的统计分析方法。双样本比例检验有两个总体,它们分别含有某种性质的个体的比率为P1和P2,检验的依据来自这两个总体的独立样本,检验关于两个总体比率是否有显著性差异。
样本比例指的是随机试验中某种指定事件出现的概率。随机试验中某种指定事件出现叫做“成功”,把一次实验成功的概率叫做P。
比如说,使用A方案的付费转化率为30%,使用B方案的付费转化率为34%,请问这两个转化率之间是否有显著不同?
单样本比率检验是检验样本对于总体比率是否有差异,双样本比率检验是检验两个样本比率之间是否有显著差异(感觉非常像t检验和双样本t检验),统计量如下
单样本比率检验
π0为总体比率,p为样本比率
z=\frac{(p-π_0)}{\sqrt{\frac{π_0(1-π_0)}{n}}}
检验功效和样本数量
Power=\Phi(\frac{p_0 - \hat{p}-Z_{\alpha}{\sigma}{_p}}{S_p})
样本数量
n=\frac{(Z_{\alpha}+Z_{\beta})^2}{(2{sin}^-1{\sqrt{P_0}}-2{sin}^-1{\sqrt{\hat{P}}})^2}
双样本比率检验
比较两样本比率是否相同,以此来检验两总体之间的差异(两独立样本比率检验):当二者的np和n(1-p)都大于5时,可以用z检验近似代替。
如果两个样本的所在总体是相同的,即检验两样本的比率差值d=0时,可以用以下代替
p=\frac{n1p1+n2p2}{n1+n2}
则此时的检验统计量为
Z=\frac{p1-p2}{\sqrt{p(1-p)[\frac{1}{n1}+\frac{1}{n2}]}}
当两个样本比率差异d!=0时,双样本的比率检验的近似Z检验统计量为
Z=\frac{(p1-p2)-d_0}{\sqrt{\frac{p1(1-p1)}{n1}+\frac{p2(1-p2)}{n2}}}
检验功效和样本数量
检验功效:
假设检验与样本数量分析

卡方检验

χ2值计算的都是试剂观察值与目标值得差距,统计公式如下
{\chi}^2=\sum{\frac{(A-E)^2}{E}}=\sum_{i=1}^k{\frac{(A_i-E_I)^2}{E_i}} = \sum_{i=1}^k{\frac{(A_i - np_i)^2}{np_i}},(i=1,2,3,4,5,6...k)
(1)设A代表某个类别的观察频数,E代表基于<span class="texhtml"><i>H</i>0</span>计算出的期望频数,A与E之差称为残差。
(2)显然,残差可以表示某一个类别观察值和理论值的偏离程度,但如果将残差简单相加以表示各类别观察频数与期望频数的差别,则有一定的不足之处。因为残差有正有负,相加后会彼此抵消,总和仍然为0,为此可以将残差平方后求和。
(3)另一方面,残差大小是一个相对的概念,相对于期望频数为10时,期望频数为20的残差非常大,但相对于期望频数为1000时20的残差就很小了。考虑到这一点,人们又将残差平方除以期望频数再求和,以估计观察频数与期望频数的差别。

进行上述操作之后,就得到了常用的χ2统计量,由于它最初是由英国统计学家Karl Pearson在1900年首次提出的,因此也称之为χ2,其计算公式为如上。其中,A为i水平的观察频数,E为i水平的期望频数,n为总频数。
卡方检验最常见的用途就是考察某无序分类变量各水平在两组或多组间的分布是否一致实际上,除了这个用途之外.卡方检验还有更广泛的应用。具体而言,其用途主要包括以下几个方面:
(1)检验某个连续变量的分布是否与某种理论分布相一致。如是否符合正态分布、是否服从均匀分布、是否服从Poisson分布等。
(2)检验某个分类变量各类的出现概率是否等于指定概率。如在36选7的彩票抽奖中,每个数字出现的概率是否各为1/36;掷硬币时,正反两面出现的概率是否均为0.5。
(3)检验某两个分类变量是否相互独立。如吸烟(二分类变量:是、否)是否与呼吸道疾病(二分类变量:是、否)有关;产品原料种类(多分类变量)是否与产品合格(二分类变量)有关。
(4)检验控制某种或某几种分类因素的作用以后,另两个分类变量是否相互独立。如在上例中,控制性别、年龄因素影响以后,吸烟是否和呼吸道疾病有关;控制产品加工工艺的影响后,产品原料类别是否与产品合格有关。
(5)检验某两种方法的结果是否一致。如采用两种诊断方法对同一批人进行诊断,其诊断结果是否一致;采用两种方法对客户进行价值类别预测,预测结果是否一致。

适用情况

适用于四格表应用条件:

1)随机样本数据。两个独立样本比较可以分以下3种情况:
  • (1)所有的理论数T≥5并且总样本量n≥40,用Pearson卡方进行检验。
  • (2)如果理论数T<5但T≥1,并且n≥40,用连续性校正的卡方进行检验。
  • (3)如果有理论数T<1或n<40,则用Fisher’s检验。
2)卡方检验的理论频数不能太小。

R×C表卡方检验应用条件:

  • (1)R×C表中理论数小于5的格子不能超过1/5;
  • (2)不能有小于1的理论数。如果实验中有不符合R×C表的卡方检验,可以通过增加样本数、列合并来实现。

fisher精确检验

fisher精确检验基于超几何分布,不依赖于任何大样本数据分布的假设,因而可以看出,在小样本的情况下,fisher精确检验适用于小样本的情况。
超几何分布 超几何分布是统计学上一种离散概率分布。它描述了从有限N个物件(其中包含M个指定种类的物件)中抽出n个物件,成功抽出该指定种类的物件的次数(不放回)。称为超几何分布。

  1. 超几何分布的模型是不放回抽样。
  2. 超几何分布中的参数是M,N,n,上述超几何分布记作X~H(n,M,N)。

2x2列联表

None men women total
Dieting a b a+b
No-dieting c d c+d
total a+c b+d a+b+c+d

评价节食行为在男性和女性中是否存在差异,此情况可以使用fisher精确检验进行检验。Fisher精确检验的p值(双侧)为小于等于当前组合的概率之和。
如上文,出现上述情况的概率为下

n = a+b+c+d
p=\frac{{\binom{a+b}{a}} + {\binom{c+d}{c}}}{\binom{n}{a+c}} = \frac{(a+b)!(c+d)!(a+c)!(b+d)!}{a!b!c!d!n!}
组合1

None men women total
Dieting 1 9 10
No-dieting 11 3 14
total 12 12 24

则上述组合的概率为
p=\frac{10!14!12!12!}{1!9!11!3!24}=0.00134
比上述组合概率更小的为以下组合

None men women total
Dieting 0 10 10
No-dieting 12 2 14
total 12 12 24

上述组合的p值为p=0.000033652
则上述组合的fisher检验结果为
p=0.00134+0.000033652 =0.001379728
远小于0.05,因而男性女性在节食事件上差异时极显著的。

个人感想

由于fisher精确检验计算中包含大量的阶乘运算,因而在计算机没有广泛运用的情况下,fisher精确检验只能用于一些小样本量的检验。而卡方检验则不同,当样本数量越多的时候,可以用正态分布近似替代运算卡方检验,因而卡方检验适合样本量较大且每个观察值大于5的情况。卡方检验有多种适用情况,还需要继续学习 [卡方检验-MBA智库]
因而对于不同检验的使用条件,有知乎大佬总结如下

  • 1)期望np和n(1-p)>5时,且总样本量大于40(最好100以上)时,四格列联表的卡方检验与双样本比率检验是实质等效的。后者实际是一种特殊形式的卡方检验,可以推导出来的。
    同样的,期望np和n(1-p)>5时,且总样本量大于40,最好100时,二分类拟合优度的卡方检验与单样本比率检验也是实质等效的。
  • 2)期望np或n(1-p)较小时(例如1~5),或n较小时,两者都不精确。列联表卡方要改用精确检验法(例如Fisher精确检验),比率检验采取对p修正的方法,将p=x/n变为p=(x+0.5)/(n+1)。前者精确度更高,推荐前者。
  • 3)期望np或n(1-p)太小或样本量太小时,两种方法都价值不大,所谓的精确检验都是误差极大的检验。样本信息量太少时,任何方法都没用。
    作者:简并,来源:知乎
    (如有错误,敬请指出,感谢)

参考资料

柳向东-《非参数统计-基于R语言案例分析》
卡方检验-MBA智库
百度百科-超几何分布
Fisher精确检验
Fisher检验
作者:简并,来源:知乎

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,692评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,482评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,995评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,223评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,245评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,208评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,091评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,929评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,346评论 1 311
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,570评论 2 333
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,739评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,437评论 5 344
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,037评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,677评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,833评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,760评论 2 369
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,647评论 2 354

推荐阅读更多精彩内容