产品A/B Test——AB版键盘测试
一、项目说明
公司推出两款键盘设计(A版、B版),为了能够吸引更多的用户,公司决定在正式发售之前进行用户测试,分析两款设计的优劣,为后续优化提供依据。
二、实验设计
对于一款键盘设计,最重要的是符合用户输入习惯,给予用户更好地输入体验。我们将用户输入时的拼错字数作为检测指标,用户在输入时,拼错字数越少,说明这款键盘设计更符合用户输入习惯。
随机选择50位体验用户,进行分组测试,每款键盘的测试用户25位。让用户在30秒内输入20个标准单词,记录他们拼错的字数。
三、描述性统计分析
收集测试数据并存入Excel中,利用Python进行描述统计分析。
测试数据如图所示(只显示了前5行),A、B分别表示A款键盘和B款键盘的两个测试组,表格中编号表示测试用户编号,数据则表示用户拼错的单词数。
从数据描述统计中可以看出:
A版本平均值= 5.08;
B版本平均值= 7.8;
A版本样本大小25,样本标准差=2.05993527406;
B版本样本大小25,样本标准差=2.64575131106;
从之前的判断标准来看,似乎A款键盘设计优于B款,但是简单的均值比较不能说明问题,因为其中可能有系统性误差。为了更有效地评价两款键盘设计,我们使用统计学中的推断统计分析进行检验。
四、推断统计分析
推断统计分析主要包括:假设检验、置信区间、效应量。
(1)假设检验
研究问题:A、B两款键盘设计,哪一款更符合用户输入习惯
根据研究问题,设立两个相反的假设
零假设:两款键盘设计没有差别,即A款键盘错字均值=B款错字均值;
备择假设:两款键盘设计有差别,即A款键盘错字均值不等于B款错字均值。
检验类型:本次测试涉及两组均值比较,因此选择双独立样本检验。
抽样分布类型:不同的样本分布会导致后续检验指标计算的选择有差异,因此对两组测试样本进行可视化,判断分布类型。
从图中可以看出,A、B两组数据分布基本符合正态分布,因此两组数据满足t分布。
接下来我们进行双独立样本的t检验:
确定检验方向:假设中我们认为A、B两组是有差异的,没有规定必须大于还是小于,因此选择双尾检验;
判断依据:我们计算零假设发生的概率,如果小于选择的置信水平,就说明零假设发生的概率极小,是小概率事件,要拒绝零假设,即不能接受A款错字均值=B款错字均值。
检验过程:
判断过程:
检验结果:双独立样本t(45)=-4.06,p=0.00019(α=0.05),具有统计显著性,拒绝零假设,即A款键盘与B款键盘有差异。
(2)置信区间
在假设检验的基础上计算置信区间,确定A款键盘与B款键盘差异的范围。
置信区间表明A款键盘的拼错字数平均比B款少1-4个。
(3)效应量
效应量度量的是差异程度,如果两个样本均值差异具有统计显著性,但是差异程度太小的话,也不具有实际意义。
效应量d=-1.32,说明差异程度还是比较大的,具有实际比较意义。
五、结论
通过随机抽取用户对两款键盘进行测试,将用户的拼错字数作为衡量指标,通过描述性统计分析得出:
A款键盘拼错字数量平均是5.08个,标准差是2.06个;
B款键盘拼错字数量平均是7.8个,标准差是2.65个;
初步证明A款键盘优于B款键盘。
之后进一步通过推断性统计分析检验:
假设检验 独立双样本t(45)=-4.05 , p=.00019 (α=5%) , 双尾检验,拒绝零假设,统计显著;
置信区间 两个平均值差值的置信区间, 95%置信水平 CI=[-4.07,-1.37];
效应量 d= - 1.32,效果显著。
说明A款键盘设计明显优于B款键盘设计,公司应该对A款键盘进行大力宣传推广。