AB测试原理(二)假设检验(参数方法)

1. 假设检验

部分引用:Typical Analysis Procedure — Introduction to Statistics 6.4 documentation

1).假设检验的目标是证明A/B两组数据(或多组)统计量的变化不是随机因素导致。

(1) H0:{\mu}_a = {\mu}_b(描述随机因素)

(2) H1: {\mu}_a \neq  {\mu}_b ( 描述显著的变化)

(3) 第一类错误\alpha: 承认H1,否定H0,但实际是随机因素导致的变化,犯这类错误的概率(H0是真,否定H0的概率)

(4) 第二类错误\beta:不否定H0,但实际是显著的变化,犯这类错误的概率(H0是假,未否定H0的概率)

(5) p-value:统计量所服从的概率分布对应的临界值(横坐标值),p < α 则否定H0, 

* 注意1-p不代表H1发生的概率,比如:p=α=0.05, 那么H0和H1发生的概率是相等的,不能否定H0。

2). 检验方法,根据数据的分布、统计量来做选择,如:

(1) 两个正态总体,总体方差\sigma_1=\sigma_2但未知其值,总体均值相等(\mu_1=\mu_2)的检验,检验统计量是:T = \frac{\tilde{X_1}-\tilde{X_2}}{S_w\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} ; S_w^2 =\frac{(n_1-1)S_1^2 + (n_2+1)S_2^2}{n_1+n_2-2}; \tilde{X_1} , \tilde{X_2} 表示样本集均值

(2) 两个非独立总体(同一总体实验前后对比)均值相等(\mu_1=\mu_2)的检验,检验统计量是:

T = \frac{ \tilde{Z}  - \mu}{S\sqrt{n}}; S^2 = \frac{1}{n-1}\sum_{i=1}^n(Z_i - \tilde{Z} )^2;  \tilde{Z} = \frac{1}{n}\sum_{i=1}^nZ_i;

其中Z_i = X_{1i}-X_{2i} ,T 服从自由度为 n-1 的 t 分布。

*均值符号是Z一个横线,这里用波浪线是因为简书有bug

3). power


1-1 power

从1-1可以看到:

(1) 若两总体是相同的(H0为真),认为两总体分布都是蓝色曲线,那么犯第一类错误的概率(否定H0)为α;

(2) 若两总体是有差异的(H0为假),  红色总体落入蓝色总体判定域内的部分就是β,此时没有否定H0,范了第二类错误;逃出判定域的部分就是1-β,此时否定了H0, 是假设检验能够检测出差异的能力power

所以(1-\beta)是检测到显著变化的概率,也叫假设检验的 power。


图1-2 大样本量

图1-2中可以看出,当样本量足够大时,两个分布会更窄高,此时power(检测显著的能力)也变大。

3). 样本量估计

在两个总体符合正态分布,且方差相同的情况下,要检测出指定程度的数据变化(如均值增加幅度)可以用以下方法计算最小样本量。

(1) 均值变化,单侧检验

n =\frac{(Z_{1-\alpha/2} +Z_{1-\beta})^2}{d^2},z=\frac{(x-\mu)}{\sigma},d=\frac{D}{\sigma}, D为均值增加值,d称为effect size

(2) 两正态总体,均值不同的双侧检测

n1=n2=\frac{(Z_{1-\alpha/2}+Z_{1-\beta})^2(\sigma_1^2+\sigma_2^2)}{D^2},D为均值差值。

(3)  Python 对于T-Test 的实现

from statsmodels.stats import power

print(power.tt_ind_solve_power(effect_size = 0.5, alpha =0.05, power=0.8))

effect_size = power.tt_ind_solve_power(alpha =0.05, power=0.8, nobs1=25) # nobs是两组样本数,

(4) 在实践中,总体往往不是正态分布,且这样计算出的最小样本量巨大,A/B实验无法给出这么长的实验时间积累样本量的情况下,就根据业务情况,监测显著情况,1周、2周左右;D是根据经验在实验开始前预估的提升值(或差值)。

2.数据的分布

1)检验数据是否符合正态分布的方法有:

(1) 画QQ_plot,正态分布的数据会接近y=x的直线

stats.probplot(data, plot=plt)  # python

(2) 正态总体假设检验方法(Hypothesis Tests for Normality

Kolmogorov-Smirnov

skewness test

the kurtosis test

the D’Agostino-Pearson omnibus test,

2).在数据科学实践中,我们关注的数据样本总体往往不是正态分布,转化为正态分布的方法:

(1) 根据中心极限定理,即便原始总体不符合正态分布,只要样本足够大,并且数据并非在很大程度上偏离正常值,那么多个样本的均值会呈现钟形正态分布。(面向数据科学家的实用统计学p42)。如在某个属性维度观察样本的频率分布图,若随机抽取5个、20个数目的样本均值为一个样本,再画出新样本的频率分布图,会发现随着抽取数目的增大,均值更接近于正态分布。

(2)长尾数据用 log 转换值

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,539评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,911评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,337评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,723评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,795评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,762评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,742评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,508评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,954评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,247评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,404评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,104评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,736评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,352评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,557评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,371评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,292评论 2 352

推荐阅读更多精彩内容