AB测试原理(四)非参数检验(1)

引用(商务与经济统计19章

实践中样本总体往往不服从正态分布,下面介绍针对非正态分布总体的假设检验,也称为非参数检验。

1.符号检验

1). 符号检验样本数n<20, 单个总体中位数差异双侧检测过程:

(1)给定来自同一总体的N个样本值,给定一个假设的总体中位数 m

(2) H0: 总体中位数 = m,H1:总体中位数≠m, 确定显著度α

(3) 将N个样本中>m 的样本记为“+”, <m的记为“-”, =m的样本删除,得到n个样本

(4)令P表示“+”号的概率,则若中位数=m(H0成立),p=0.5,所以将假设转化为二项分布概率p的假设:

H0: p=0.5, H1:p≠0.5

(5)计算二项分布的概率分布图,binomial(n=i, p=0.5), i= 1, ...n,

(6) 由于是双侧检测,p为"+"的概率:

若n_+>0.5n, p-value= 2*\sum_{i>=n_+}^n binomial(n=i, p=0.5)

若n_+<0.5n, p-value= 2*\sum_{i>=0}^{n_+} binomial(n=i, p=0.5)

(7) 若 p-value < α,拒绝假设H0(总体中位数不是m), 否则不能拒绝假设H1

2).符号检验样本数>20, 单个总体中位数单侧检测过程:

(1)给定来自同一总体的N个样本值,给定一个假设的总体中位数 m

(2)H0: 总体中位数 >= m,H1:总体中位数<m(比如指标中位数有所下降), 确定显著度α

(3)将N个样本中>m 的样本记为“+”, <m的记为“-”, =m的样本删除,得到n个样本

(4)令P表示“+”号的概率,所以将假设转化为二项分布概率p的假设:H0: p>=0.5, H1:p<0.5 

(5) n+ < 0.5n (否则一般不会有下降的备则假设H1), 位于二项分布下侧,

p-value = \sum_{i=0}^{n_+} binomial(n=i, p=0.5) ,可以这样计算

(6) 由于当n>20时,二项分布随机变量x(正的频数) 近似服从N(\mu,\sigma), \mu=0.5n, \sigma=\sqrt{0.25n}

n_+1n_+的连续因子矫正值,p-value = P(x<= n_+1) = P( x<= \frac{n_+1 - \mu}{\sigma}) 

(7) 若p-value <α, 拒绝H0(指标中位数有所下降), 否则无法拒绝H0

2. 匹配样本(成对样本)的假设

检测两总体是否有差异的检验过程:

(1) 提供N对样本,其中一个来自总体1,另一个来自总体2,

(2) 每一对样本,偏好总体1为“+”, 偏好总体2偏好为“-”, 无差别的样本删掉, 得n个样本

(3) 定义p为偏好总体1的概率,H0: p=0.5, H1: p ≠0.5, 定义显著度α

(4) 符号检验,双侧:

若n_+ >0.5n, p-value = 2* \sum_{i>=n_+}^n binomial(n=i,p=0.5)

若n_+ <0.5n, p-value = 2* \sum_{i>0}^{n_+} binomial(n=i,p=0.5)                                                        (5) 若 p-value <α,拒绝H0(两总体有偏好差别), 否则无法拒绝H0

若 N > 20, 亦可用正态分布求p-value。

3. 连续区间校正

当随机变量X是离散变量时,用正态分布近似要将X=x的离散概率近似为(x-0.5, x+0.5)区间上的正态概率,

若为上侧取 X= x+0.5, 若为下侧取 X=x-0.5

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容