要点
1. 单个二项分布检验用SPSS二项检验或者单样本T检验
2. 比较两个个二项分布差异性之类的可以用Anova或者独立样本T检验,后者可以得到置信区间。
3.上面的SPSS数据形式都是1和0的形式,用MATLAB生成即可。
譬如这样一个问题:
中国的互联网络覆盖率是不是在30%以上(5%显著性水平)?抽样显示,150个样本中,有57个是有网络覆盖的。
解题:
H0:网络覆盖率小于等于30%
H1:网络覆盖率在30%以上
如果H0成立,这个总体是一个典型的伯努利分布,伯努利分布是有总体标准差的,总体平均值为0.3, 方差就是p(1-p),这里的p就是0.3,标准差为 √(0.3*0.7),就不用拿样本的标准差进行估计了。
0 | 1 |
---|---|
0.7 | 0.3 |
根据中心极限定理,样本均值的抽样分布是符合正态分布的,此正态分布的均值等于总体均值0.3,而这个分布的标准差等于总体标准差/√ 150 = 0.037,而我们这个特定的样本均值为57/150 = 0.38,可以计算出来z statistic(z 统计量,即离均值有多少个标准差远)为(0.38-0.3)/0.037 = 2.14。
因为我们的样本量大于30,所以我们查z table(下图),也就是这是个z test,单侧5%的z score 查表为1.65,也就是,假如原假设H0成立,我们调查的网络覆盖率38%或者更极端的情况发生的可能性小于5%,显然不太可能,所以我们拒绝原假设。
附:SPSS二项检验
原始数据为57个1和93个0(因为我们要检验的是有网络覆盖),然后分析-非参数检验-旧对话框-二项,检验比例设置为0.3,结果如下,p值0.022表示如果原假设成立即覆盖率基本30%,则得到我们样本数据的概率为2.2%,显然不太可能(起码在5%显著性水平内),拒绝覆盖率基本是30%,应该是覆盖率显著大于30%的。
PS:也可以用单样本t检验,只是结果是双尾的,除以2即可。