前言

一直都知道A/B test，但是没有机会实践在产品的实施中。一方面因为使用这个方法需要足够的用户量，另一方面因为自己没有搭建A/B Test系统，从成本角度也无法实施。

但是A/B Test不仅可以用在产品迭代的设计中，还可以用在很多需要对比的场景下，为我们提供思路，当需要实践时，又要注意什么呢？

1. A/B Test 是什么？

是一个通过对比几组方案，确定一个最优方案的实验。

方案对比

2. 为什么要做？

2.1 解决分歧

在得到确切的效果之前，不同的人会有不同的方案，而人们无法确定哪个方案是最合适的，就会产生分歧。产品经理认为购买转化低下是因为投放人员在选择群体时不够准确，而市场方面则认为是购物的步骤过多导致了流失。

设计师抱怨程序员在实现时修改了交互，程序员觉得首先要保证兼容性。

如果采用A/B Test，可以直观得出每个方案的数据，从而解决大家的分歧。

各说各话

2.2 方案择优

在互联网有一句话，即使最优秀的产品经理也只能跑赢50%的A/B Test。在众多的方案中，要凭感觉或经验选出最优的那种并不容易，借助A/B Test，选出数据最好的那组方案，继而去执行，可以在摸着石头过河的过程中走得更加稳固。

2.3 三大特性

（1）先验性

A/B Test实际上属于一种预测型的先验体系，可以通过较小样本（与全站对比）得到比较有代表性的结果，并全站推行。

（2）并行性

在测验时往往是2个或以上的版本同时进行，节约了实验的时间。在样本条件相同的情况下也能得到更加客观的结果。

（3）科学性

科学性强调的是A/B Test的数据客观，在测验时需要将相似的用户均匀分到各个测验组以保证数据不会出现大的偏差，这样得出的结果不会因为用户特征不同而出现偏差，数据更加可信。

怎么做？

试验步骤

（1）确定目标

在测验之前，我们需要明确此次测验的目的是什么，为了提高某个界面点击率？还是提高商品的购买转化？或者是其他一些可以明确的目标。

（2）创建变量

在确定目标之后，我们需要设定不同版本间的变量，通过设计变量，分辨不同版本的特性。比如更换按钮的颜色，改变页面的排版，增加文案的描述。

（3）生成假设

有了目标后，即可针对方案生成假设，假设各种方案的数据变化。

（4）运行试验

一切准备就绪，按照既定的方案选择时段与用户群体进行试验。

（5）收集数据

收集不同版本的表现数据。

（6）分析结果

按照目标与假设对结果进行分析，分析每个版本间的差异。

应用

应用场景

（1）着陆页

用户通过外部广告点击进入着陆页，如果对产品感兴趣，会产生转化行为。因此，富有吸引力的着陆页，能够最大化营销ROI。

（2）页面

页面中的元素组合不同，可以得到不同的转化效果，进一步激发用户的行为意愿。通过测试可以得到最优的页面设计。

（3）体验

C端的竞品越来越多，谁的体验更好，无疑可以获得更多用户的青睐，通过A/B Test可以优化产品的体验，提升产品的各类指标。

（4）广告

广告是用户在触达产品之前重要的触点，为了提高广告单价，使用A/B Test优化广告资源。

（5）灰度发布

目前很多产品迭代的发布，通常都是直接上正式环境，面向所有用户。一旦出现线上bug不能立马解决，就不得不回滚，非常影响用户体验。如果通过灰度发布给小批量用户，然后在线上回归之后，再发到所有用户，可以有效减少事故。

应用内容

（1）视觉体验

为了对比不同的UI或者交互能给用户带来不同的体验，从而选择更好的视觉设计。比如，不同颜色的按钮，能促进的点击率不同，不同大小、位置的广告带来的点击率不同。

按钮颜色不同

（2）文案内容

不同文案搭配的效果给用户带来的影响不同，尝试改变标题，标签，按钮的文案，看不同的文案带来的数据差别。

文案不同

（3）页面布局

改变页面布局，对整个页面的框架有影响，不同的排版，对增长也有影响。

页面布局不同

（4）产品功能

增加或优化的功能，在上线之前，谁都不知道数据如何，如果想知道功能是否达到用户预期，可以在正式上线前先进行A/B 测试，验证功能的使用情况和效果。

（5）算法相关

同样的算法对不同的人生成不同的结果，不管是电商平台，还是内容平台的推荐算法，甚至广告的推荐，都可以通过A/B 测试获得不同算法的转化率，从而确定最优的模型。

应用误区

（1）不同版本测试时间不同

某些使用A/B Test的项目组，会在不同时间，相继上线几个不同的方案，来采集数据。这样做其实并没有保证用户的统一，反而因为时段不同，活跃用户不相同，导致结果差异。

我们应该在同样的时间，提供多个方案并行测试，尽量降低每一组的条件差别。

（2）随机选择用户测试

在正式决定前，将不同版本都发上去，并随机选择用户更新不同的版本，或者直接在公司内部进行试用，根据数据反馈决定使用哪个版本。这样导致的结果就是，在用户特征不同的情况下，行为也会不同，最后产生的数据可信度低。

我们应该将相似特征的用户进行分组，在不同版本间分配这些特征相似的用户，进行科学的流量分配，才能得到客观科学的结果。

（3）同时测试多个变量

有的实验既包含了UI的修改，也包含了文案的修改，最后导致得出的结果不知道是因为UI的改变优化了视觉，还是文案的修改吸引了用户。

我们应该在对照的时候，不同版本间，只存在一个变量，最后才知道是哪个变量影响了数据。

（4）让用户自主选择版本

有的实验在版本间的切换，完全由用户选择，然后收集按钮点击率，与页面跳出率来决定使用哪个版本。然而用户有随机性有时候不知道选择哪个的时候会随机选择一个，还有习惯性会导致用户在不习惯新版本的情况下回到旧版本，而并不是因为新版本的体验不好。

因此，我们在不同版本的分配上应该结合（1）和（2）,保证同时，将流量分配到相似特征的用户组上。

（5）匆忙结束试验

一般在新版本上线后，用户会有一些新鲜感，有的用户乐于体验新版，有的用户不太习惯。所以刚开始的数据会有一些波动，如果此时结束试验，得到的数据是被干扰的。需要再进行一段时间的试验，因此版本对比试验需要足够的时间。

参考文档

woshipm.com/operate/2771877.html

http://www.woshipm.com/pd/4571652.html

产品笔记 | A/B Test