产品A/B Test——AB版键盘测试

产品A/B  Test——AB版键盘测试

一、项目说明

公司推出两款键盘设计(A版、B版),为了能够吸引更多的用户,公司决定在正式发售之前进行用户测试,分析两款设计的优劣,为后续优化提供依据。

二、实验设计

对于一款键盘设计,最重要的是符合用户输入习惯,给予用户更好地输入体验。我们将用户输入时的拼错字数作为检测指标,用户在输入时,拼错字数越少,说明这款键盘设计更符合用户输入习惯。

随机选择50位体验用户,进行分组测试,每款键盘的测试用户25位。让用户在30秒内输入20个标准单词,记录他们拼错的字数。

三、描述性统计分析

收集测试数据并存入Excel中,利用Python进行描述统计分析。

测试数据如图所示(只显示了前5行),A、B分别表示A款键盘和B款键盘的两个测试组,表格中编号表示测试用户编号,数据则表示用户拼错的单词数。

从数据描述统计中可以看出:

A版本平均值= 5.08;

B版本平均值= 7.8;

A版本样本大小25,样本标准差=2.05993527406;

B版本样本大小25,样本标准差=2.64575131106;

从之前的判断标准来看,似乎A款键盘设计优于B款,但是简单的均值比较不能说明问题,因为其中可能有系统性误差。为了更有效地评价两款键盘设计,我们使用统计学中的推断统计分析进行检验。

四、推断统计分析

推断统计分析主要包括:假设检验、置信区间、效应量。

(1)假设检验

研究问题:A、B两款键盘设计,哪一款更符合用户输入习惯

根据研究问题,设立两个相反的假设

零假设:两款键盘设计没有差别,即A款键盘错字均值=B款错字均值;

备择假设:两款键盘设计有差别,即A款键盘错字均值不等于B款错字均值。

检验类型:本次测试涉及两组均值比较,因此选择双独立样本检验。

抽样分布类型:不同的样本分布会导致后续检验指标计算的选择有差异,因此对两组测试样本进行可视化,判断分布类型。

从图中可以看出,A、B两组数据分布基本符合正态分布,因此两组数据满足t分布。

接下来我们进行双独立样本的t检验:

确定检验方向:假设中我们认为A、B两组是有差异的,没有规定必须大于还是小于,因此选择双尾检验;

判断依据:我们计算零假设发生的概率,如果小于选择的置信水平,就说明零假设发生的概率极小,是小概率事件,要拒绝零假设,即不能接受A款错字均值=B款错字均值。

检验过程:

判断过程:

检验结果:双独立样本t(45)=-4.06,p=0.00019(α=0.05),具有统计显著性,拒绝零假设,即A款键盘与B款键盘有差异。

(2)置信区间

在假设检验的基础上计算置信区间,确定A款键盘与B款键盘差异的范围。

置信区间表明A款键盘的拼错字数平均比B款少1-4个。

(3)效应量

效应量度量的是差异程度,如果两个样本均值差异具有统计显著性,但是差异程度太小的话,也不具有实际意义。

效应量d=-1.32,说明差异程度还是比较大的,具有实际比较意义。

五、结论

通过随机抽取用户对两款键盘进行测试,将用户的拼错字数作为衡量指标,通过描述性统计分析得出:

A款键盘拼错字数量平均是5.08个,标准差是2.06个;

B款键盘拼错字数量平均是7.8个,标准差是2.65个;

初步证明A款键盘优于B款键盘。

之后进一步通过推断性统计分析检验:

假设检验 独立双样本t(45)=-4.05 , p=.00019 (α=5%) , 双尾检验,拒绝零假设,统计显著;

置信区间 两个平均值差值的置信区间, 95%置信水平 CI=[-4.07,-1.37];

效应量 d= - 1.32,效果显著。

说明A款键盘设计明显优于B款键盘设计,公司应该对A款键盘进行大力宣传推广。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容