【撷英】在此之前,我的实验屡屡失败。10次实验,最多能有1次成功。但是即便如此,我还是会不断在细节上做出调整,提高精准度,在进行下一次的实验。在过去的20多年时间里,我一直在持续不断做实验,我终于成功了。
——2011年获得诺贝尔生理学奖获得者 山中伸弥
山中伸弥因何获得诺奖?逆转录病毒诱导生成IPS类干细胞。或许你听不懂,简言之,他的研究成果能够让普通细胞据胚胎干细胞的能力,能够形成任何人体器官……在此基础上继续发展,任何致命的心血管疾病、器官衰竭或破损都将得到解决(并且能够避免通过胚胎获取干细胞的伦理问题)——真正做到『起死回生、妙手回春』。他是如何做到的呢?就如引言所说。
20年只做一件事情——不停试验,如果再加上不足10%的成功率究竟意味着什么?有人会想到『书山有路勤为径,学海无涯苦作舟』,吆喝君却认为这个加法等号的右边是成功。伟大的成功往往源于坚持不懈,可是盲目的勤奋和一味的吃苦并不是成功的必然条件,只有建立在试验思维下的坚持到底才是胜利。
互联网亦是如此。泡沫的远去,互联网产品本身发展的魅力得以体现。或许,这个世界上再也没有任何其他一个领域从源头上就可以深度接入试验文化。从 Goolge 第一次不太成功的 A/B 测试开始到如今世界上顶级科技普遍利用 A/B 测试优化产品体验,已经一部分人开始意识到:对于互联网公司而言, A/B 测试并不是有没有没有的问题而是多还是更多的问题。
亚马逊创始人贝佐斯曾毫不避讳的表示“试验不是策略之一,而是策略本身”,包括
Facebook、Linkedin、Google、Airbnb、Wish、Uber、Netflix 等一系列巨头从创业之初到现在始终没有改变的
A/B 测试。A/B测试,不是高高在上的理论假设,也不是俗烂的运营套路,而是一个中观的科学实践方式。
经过国内外一系列第三方A/B测试方案提供方的不懈努力(国外如Optimizely,国内如吆喝科技)越来越多的国内公司开始积极接触A/B测试。这些公司往往有着强烈的互联网业务增长需求却只能从一些非专业人士那里听到一些皮毛甚至是错误的认知。今天吆喝君从理论到实践帮助大家从根本上正确认识“A/B 测试 ——定义、特性、实施流程(更多内容点击阅读原文获得更多信息)。
A/B测试的定义:分离式组间试验方法
分离式组间试验方法。基于统计学假设检验原理设计的对照试验,通过对照组和试验组的采样样本分析来推断某个假设是否对总体样本成立。在科学研究领域被用作最高水平的检验方法,在产业上被应用在医疗临床3期,农业试验田,广告营销设计优化,互联网产品迭代优化,互联网流量运营转化率优化,选举策略优化等场景。
广告之父 David Ogilvy:测试不息,增长不止
A/B测试的三大特性:鲜艳、并行、科学
先验性: A/B测试结果属于预测型结论,与“后验”的归纳性结论差别巨大。后验的方式是先将版本发布,再通过数据验证效果,而A/B 测试用很少的样本量来推断新版本在全流量下的效果。
并行性: A/B测试将两个或以上的方案同时在线试验,保证每个版本所处环境的一致性,同时节省了验证的时间,无需在验证完一个版本之后再测试另一个。
科学性:A/B 测试的正确做法是将相似特征的用户均匀的分配到试验组中,确保每个组别的用户特征的相似性,从而避免辛普森悖论。
A/B测试试验是产生用户阻力的地方,也是增长前进的核心动力。
A/B测试的实施流程
不同平台因技术实现方式不同而在实施流程上有所差异,不可能在一篇文章中全部覆盖,那么我们就以相对成熟完善的 AppAdhoc A/B Testing 为例展开:
1.试验设计:
根据假设确定试验项目的设计,包括试验版本和变量,试验触发条件,试验针对的用户受众,试验流量分配,优化指标等等。
2.试验配置:
对H5或广告着陆页等场景的试验,设置触发条件,比如完全匹配URL或者模糊匹配URL。如果试验是定向针对部分用户群体的,设置受众定向,比如小米Mix2手机用户。
3.创建试验版本:
对于UI布局,banner图片,文案,配色等试验,可以使用可视化编辑器来编辑生成试验版本;对于广告着陆页等试验,可以使用多链接试验来直接把不同的URL当作不同的试验版本来对比;对于新功能灰度发布,后端算法调整,结构改版等试验,可以使用编程模式自定义试验变量,请工程师来将变量集成到代码里。
4.设定优化指标:
对于用户行为类优化指标,比如按钮点击、图片点击、URL跳转等,可以使用可视化编辑器来埋点;对于需要代码计算的指标,比如收费金额等,可以使用编程模式自定义指标,请工程师将指标埋点集成到代码里。
5.QA调试和上线:
使用内部测试机器来调试原始版本和试验版本,检查版本是否符合试验设计,检查系统是否能正确收集到调试数据。对于App编程模式试验,通过QA调试之后,可能需要将新版App代码上线应用商店。
6.流量分配:
一般先给试验分配小流量,比如10%流量,其中5%给原始版本,5%给试验版本。如果没有bug和数据异常,再逐步提高试验流量到20%,50%,100%。注意尽量保证原始版本和试验版本的流量相等。
7.数据分析:
实时检查试验数据,观察试验版本优化指标的置信区间来判断试验假设是否正确。
【点睛】A/B测试,往往会被看做一种黑客增长工具。然而,A/B测试并不是一个仅仅满足人们短期增长目标的兴奋剂,而是一个有目标、有追求的公司所要坚持的企业文化和增长文化。2011年获得诺贝尔生理学奖的日本教授山中伸弥,因实现了细胞逆向重编程(能够让任何细胞退回到受精卵阶段成为IPS万能细胞),在京都大学召开记者招待会上,他说了这样一番话:“在此之前,我的实验屡屡失败。10次实验,最多能有1次成功。但是即便如此,我还是会不断在细节上做出调整,提高精准度,在进行下一次的实验。在过去的20多年时间里,我一直在持续不断做实验,我终于成功了。”这个世界只有兢兢业业的创业人,却从未有马马虎虎的成功者。