Adwords和仓鼠A/B测试中的统计方法

这篇文章主要讨论A/B测试中，为了使结果具体有统计意义，需要进行多少次实验。

比如说，Adwords中两种不同的的标题，可以看做不同的变量。32次点击的A("Code Review Tools")和19次点击的B("Tools for Code Review")，得出这样的结果以后，能否确认A比较好？或者说，需要进行更多次的实验才能够确定？

一直进行测试以求得到较好结果，会浪费大量时间；如果不进行足够的测试，把当前结果作为最终评定标准，则可能会得出错误的假设。

问题的核心是，能不能找到一种统计方法来表明测试结果有明显的“差异”

在仓鼠的实验中，仓鼠选择有机食品的次数是8次，选择常规食品的次数是4次。如果得出仓鼠更喜欢有机食品的结论，就错了。因为实验次数较少，不能快速得出这样的结论。

正如人们认为乘坐飞机比乘坐汽车危险一样，事实上，乘坐汽车出事故的概率是乘坐飞机的60倍。

这里介绍了一种验证A/B测试是否有统计意义上的差异。（以仓鼠和Adwords实验为例）

1. N表示为实验的次数
仓鼠实验总次数：8+4=12
Adword实验总次数：32+19=51

2. D表示为获胜者与失败者之间差异的一半
仓鼠实验D值为：（8-4）/2=2
Adwords实验D值为：（32-19）/2=6.5

3. 如果D²大于N，则认为有统计意义，差异明显
仓鼠实验D²=4，小于12，无统计意义，差异不大
Adword实验D²=42.25，小于51，无统计意义，差异不大

如果N值比较小，经过很多测试也很难具有统计意义

上述公式的推导过程如下：

零假设是A/B测试的结果是独立的，这里采用皮尔森卡方检验。其中，m表示实验的结果数，O_i表示观察值，E_i表示期望值。则：

在简单的A/B测试中，m=2,对于50/50的随机过程，期望值E_i=n/2(n=O₁+O₂).假定A=O₁是两者中较大的那组，B则相反。则公式如下：

因为A+B=n，所以A与n/2和B与n/2的平方差相等，令D=A-n/2，则公式变为如下：

在上述例子中，自由度为1，根据卡方分布表，95%的置信区间X²大于3.8,99%的置信区间X²大于6.6，在上述例子中，作者选取4作为阈值，公式如下：