面对两套无法判断效果的方案,可考虑A/B test,简单的说就是通过控制变量进行数据对比来判断哪种策略更有效果。
步骤
设定问题——设计实验——统计实验数据——分析数据
统计知识:
两样本比例假设检验:查看实验组和对照组的指标(点击率、转化率、留存率)哪个更好。
原假设:H0: A、B无差异(如变换按钮文案,点击率不变)
H1: A、B有显著差异(如变换按钮文案,点击率不一样)
中心极限定理:
若样本数量足够大,则其产生的均值应该是符合正态分布的。那么利用正态分布的性质,就可以推断出样本均值出现在某区间范围的概率。理论上就可以计算样本均值有多大概率(置信度)可能出现的区间范围,从而推算出总体均值有大概率落在范围内。
第一步:设定问题
想要解决什么问题?
示例:想通过优化 提交按钮 的文案来提高“提交”按钮的点击率
第二步:设计实验
1)确定实验组和对照组.
一般可考虑设置组内对比,组间对比
示例:A的提交按钮文案是“免费”,B的提交按钮文案是“0元”,其他不变。
2)确定观测的指标
示例:按钮的点击率=页面PV/点击按钮的PV
3) 确定样本量
第一类错误:(1,0)实际没区别,但分析的结果是有区别。这个概率用来表示,称为显著性。1-称为置信水平,即有1-的概率正确接受了H0,即分析结果和真实情况都是没区别。
一般第一类错误的概率不超过5%。意味着新策略对业务其实没有提升,却被错误的认为有提升。依据这样的分析结果调整策略,不仅浪费了公司资源,可能还会对产品进行不良引导,所以希望该数值越小越好,上限设为5%。
第二类错误:(0,1)实际有区别,但分析的结果是没区别。这个概率用来表示。
将1-称为统计功效,即正确拒绝H0的概率,即分析结果和真实情况都是有区别。
一般第二类错误的概率不超过20%。意味着新策略对业务其实有提升,却被错误的认为没有用。依据这样的分析调整策略,可能不会让业务更快的提升,但至少也是维持着现状不变。所以虽然同样希望越小越好,但上限设为20%,高于第一类错误的上限。
*样本量的计算公式样式参考如下:
p1为基础值,是对照组当前的指标率;p2为目标值,是实验组期望的指标率。;α和β分别称为第一类错误概率和第二类错误概率,一般分别取0.05和0.2;Z为正态分布的分位数函数 。
A/B测试样本量在线计算器 计算如下:
比如:https://abtestguide.com/abtestsize/
现有基准转化率(conversion rate)为2%;想要在此基础上提高20%(minimum detectable effect),即提高到2.4%;显著性为5%,统计功效选 1-为 80%,则计算出结果为21108,即对照组和测试组需要的样本量各需要21108,最少需要测试一周。
也可用python中已有的包和函数计算python 函数
第三步:统计数据
依据观测指标,相应增加埋点,注意增加区分实验组和对照组的标识。
关于埋点设计,我有过总结,可点击 埋点设计 查看。
关于统计,没有第三方工具的情况下,一般需要SQL/python取数。
第四步: 分析数据
1)排查可能影响结果的因素
先肉眼观测数据,猜想实验是否有效、结果是否有效:实验数据是否相差较大?样本是否用代表性?实验周期多久?
1) 为了避免数据结果偏差,理论上样本量越多越好。但考虑到大流量试错会使成本增大,还是要尽量控制数量,得到结论后,及时调整策略。
2)实验组和对照组的样本要避免用户差异,如果是特定标签(性别、年龄、城市)的用户群体,那么投放时2组也要做到用户标签一致。
3)埋点是否正确、全面?(友情提示:如果ABtest方案、埋点、取数都不是同一个岗位的话,一定要沟通对齐,否则很可能得出错误的数据和结论)
2)显著性差异分析
在1)的基础上借助数学模型,对数据的差异性进行度量。
根据大数定律和中心极限定理:当样本量较大(大于30)时,可以通过Z检验来检验测试组和对照组两个样本均值差异的显著性。样本量小于30时,可进行t检验。
EXCEL 函数 实现t检验:T.TEST
单尾双尾:一般都是双尾。
双尾:不知道方向性。比如:计算AB的点击率各是多少,看看谁比谁大,再看大多少
单尾:是你已经知道方向性了。比如你知道A的点击率比B大,只是不知道具体大多少。
查表时,在显著性水平一定的情况下(例如α =0.05),
双尾表:单侧检验时改用2α进行统计推断,双侧检验则用α 进行统计推断。
单尾表:单侧检验时仍使用α进行统计推断,双侧检验则用α /2进行统计推断;
一般情况下,概率分布函数曲线两侧尾端的小概率事件都要考虑(即双侧检验)。如果事先有把握确定其中的一侧不可能取值,则仅需对另一侧的小概率事件进行检验即可(单侧检验)。
计算出t值后,将 t 值转换成p值,
Excel的函数公式:p = TDIST(t,n,tails)
t→t值 n→自由度 tails→单尾=1;双尾=2
根据t值和自由度n =N1 + N2 - 2 ,比如N1和N2是去2组实验重后用户数UV
通常:
P>0.05 表示 差异性不显著,实验无效
0.01<P<0.05 表示 差异性显著
P<0.01 表示 差异性极显著,差异过大,可能投放的用户群体不一致,有较多不同层次的标签。
3)输出结论,调整策略
·实验是否有效。
·结论是
A、B无差异(如变换按钮文案,点击率不变)或 A、B有显著差异(如变换按钮文案,点击率不一样)
·原因可能是XXXX