一、什么是A/B测试?
AB测试的前身是随机对照实验,常用于医疗、生物研究领域,实验将研究对象随机分组,对不同组实施不同的干预,对照效果。
AB测试实际上是一种假设性实验验证,是将用户分成不同的组,同时测试不同的方案,通过用户的真实数据来验证哪个方案更好的过程。
二、为什么要做AB测试
A/B测试是一个科学的统计方法,避免纸上谈兵的无意义争论,好不好按照效果说了算。
AB测试是支持数据决策最有力的工具,避免了凭借感觉定方案的情况。举个例子:审美就是一件非常复杂的事情,一个icon的样式应该如何设计才能获得更高的效果?
AB测试就是把审美这件事进行量化。一方面,这样的AB确实能在想到的几种设计样式中找寻到了最优解,减少设计师和运营平时的相互扯皮,提升团队效率;但另一方面,也给大家带来了新的思考,用户会变,市场会变,审美会变,现在的最优解在未来可能是一个糟糕的方案。
三、怎么做A/B测试?
四、AB测试流程?
AB测试-->确认测试目的--->确认参与测试的方案--->确认数据来源--->方案执行--->分析数据结论/方案落地
分支:
1、确认测试目包含
(1)、---实验目的:
(2)、---明确的、可量化的实验标准
2、确认参与测试的方案包含
(1)、流量分配
(2)、测试时间
(3)、明确方案差异
(4)、控制单一变量
3、确认数据来源包含
(1)、评价指标的统计口径
(2)、埋点方案的设计确认
4、方案执行包含
(1)、确认方案实现无误
(2)、确认数据上报无误
(3)、给开发小哥做心理按摩
5、分析数据结论/方案落地包含
(1)、新方案更优:逐步放量,跟踪数据
(2)、原方案更优:分析原因,总结经验
五、明确测试目的
1、提出问题
*确认A/B测试需要验证的问题;
*明确A/B测试目的
2、确定测试评价指标
*围绕测试目的制定评价指标
*口径明晰,可准确量化
*可从多角度、多维度进行效果评价
3、明确方案差异
*明确被测试的差异点
*确保差异点可以验证提出的问题
4、控制唯一变量
*用户结构、属性、机型一致
*各组测试时间一致
*只存在一个被测试的差异点
六、确定数据验证方案
1、评价指标的统计口径
*找准A/B测试各方案之间的差异点和测试目的
*围绕差异点和测试目的制定方案评级标准
*多角度验证,提升结论可靠性
2、埋点方案合理设计
*前提:明确的、可量化的评价标准
*确保埋点上报的数据经过清洗、聚合可以得到需要的数据
七、执行方案
1、确认方案执行无误
*看似简单,实则坑多且深
*分流放量规则、运营配置规则,方案实现效果等
2、确认数据上报无误
*所有数据分析的前提(坑多且深)
*确保各方案之间数据上报逻辑一致,数据上报完整,参数上报正确,上报地址正确
八、分析数据,落地最优方案
1、新方案更优
*持续跟踪数据,确保排除随机波动因素
*持续放量,观察数据是否保持稳定
2、原方案更优
*分析原因
*提出改进
*总结经验
九、案例
背景:对i主题首页流量分布及效率进行分析,支撑现有首页框架的改版,提高流量转化效率。
结论:推荐页的推荐列表,曝光量大,是营收占比最高模块;流量衰减迅速,下划到第3屏流量衰减80%;整体上CTR随着位置加深而降低,第二行资源的CTR存在明显波谷;在第33行CTR数据出现显著波峰;150位资源之后,CTR数据无规律波动。
1、提出问题
资源加载数量对用户点击、付费行为是否有影响
2、确定测试评价指标
CTR
ARPU值、付费率
人均资源浏览个数、点击个数
3、流量分配
发布实验版本6.5.2.2;
通过对imei进行hash运算进行流量分配,通过服务器进行不同方案配置;
实验用户量:每组约5万活跃用户
4、明确方案差异、控制唯一变量
5、测试周期
2020-06-09至2020-06-18
6、评价指标的统计口径
Arpu = 该模块营收/该模块活跃用户
CTR = 资源点击个数/资源曝光个数
人均曝光个数 = 资源曝光个数/该模块活跃人数
7、分析数据结论,方案落地
实验组d各项指标(活跃arpu,CTR)均在各实验组均表现最佳,建议采取实验组d对应方案。
十、常见误区及总结
AB测试,适用于解决哪些问题?是不是所有需求都要做AB测试?
A/B测试只是工具,无法解决产品的所有问题
产品战略的问题,很难通过A/B测试解决
长期生态问题,A/B测试很难持续监测
调性、审美的问题,数据表现好的方案,可能并不是最“好”的方案
必须要做的需求,需要做AB测试吗?
老板的需求
战略级别的需求
测试结果很好,全量之后然并卵?
不是真正的AB测试
改进点没有击中用户核心需求,无法真正撬动大盘