Adwords和仓鼠A/B测试中的统计方法

这篇文章主要讨论A/B测试中,为了使结果具体有统计意义,需要进行多少次实验。

比如说,Adwords中两种不同的的标题,可以看做不同的变量。32次点击的A("Code Review Tools")和19次点击的B("Tools for Code Review"),得出这样的结果以后,能否确认A比较好?或者说,需要进行更多次的实验才能够确定?

一直进行测试以求得到较好结果,会浪费大量时间;如果不进行足够的测试,把当前结果作为最终评定标准,则可能会得出错误的假设。

问题的核心是,能不能找到一种统计方法来表明测试结果有明显的“差异”

在仓鼠的实验中,仓鼠选择有机食品的次数是8次,选择常规食品的次数是4次。如果得出仓鼠更喜欢有机食品的结论,就错了。因为实验次数较少,不能快速得出这样的结论。

正如人们认为乘坐飞机比乘坐汽车危险一样,事实上,乘坐汽车出事故的概率是乘坐飞机的60倍。

这里介绍了一种验证A/B测试是否有统计意义上的差异。(以仓鼠和Adwords实验为例)

1. N表示为实验的次数
仓鼠实验总次数:8+4=12
Adword实验总次数:32+19=51

2. D表示为获胜者与失败者之间差异的一半
仓鼠实验D值为:(8-4)/2=2
Adwords实验D值为:(32-19)/2=6.5

3. 如果D2大于N,则认为有统计意义,差异明显
仓鼠实验D2=4,小于12,无统计意义,差异不大
Adword实验D2=42.25,小于51,无统计意义,差异不大

如果N值比较小,经过很多测试也很难具有统计意义


上述公式的推导过程如下:

零假设是A/B测试的结果是独立的,这里采用皮尔森卡方检验。其中,m表示实验的结果数,Oi表示观察值,Ei表示期望值。则:


在简单的A/B测试中,m=2,对于50/50的随机过程,期望值Ei=n/2(n=O1+O2).假定A=O1是两者中较大的那组,B则相反。则公式如下:

因为A+B=n,所以A与n/2和B与n/2的平方差相等,令D=A-n/2,则公式变为如下:

在上述例子中,自由度为1,根据卡方分布表,95%的置信区间X2大于3.8,99%的置信区间X2大于6.6,在上述例子中,作者选取4作为阈值,公式如下:

注:文章非原创整理自:Easy statistics for AdWords A/B testing, and hamsters

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 学习笔记 比较基础 基本概念 @try @catch是Objective-C 异常捕捉机制 * `@try`存放可...
    VIC_LI阅读 753评论 1 2
  • 有小空闲的时候常浏览《今日头条》里的搞笑动图,然后把笑出来的图存下来,留着回去后慢慢看。 不知不觉我已经下载了七百...
    十大恶人阅读 194评论 1 0
  • 2.9 邦迪的请求 一个小男孩捏着一美元硬币,沿街一家一家商店地询问:“请问您这儿有没有上帝卖?”店主们要么...
    快乐课堂5678阅读 215评论 0 1
  • 碎花➕雪纺➕荷叶边 真是浪漫绝配
    AJ呜啦啦阅读 128评论 0 0