Trustworthy Online Controlled Experiments Part 1 Chap 2
证据越匮乏,观点越盛行 (Arnold Glasow)
在第一章中,我们回顾了什么是受控实验,以及如何获取实际数据用于决策,而不是依靠直觉。这本章中的示例探讨了设计,运行和调试的基本原理, 以及如何分析实验。这些原则适用于任何软件,以及部署,包括Web服务器和浏览器,桌面应用程序,移动应用程序,游戏机,助手等。为了简单明了,我们重点介绍一个网站优化示例。在第12章中,我们重点介绍了针对胖客户端(例如本机桌面和移动应用)运行实验时的差异。
关于例子
我们的具体示例是一个虚构的在线商业网站。我们可以测试的变化范围很广:比如引入了一项新功能,用户界面(UI),后端更改等。
在我们的示例中,营销部门希望通过发送促销电子邮件,其中包含用于小部件折扣的优惠券代码。这个更改是潜在的业务模式更改,因为该公司以前没有提供优惠券。但是,该公司的一名员工最近阅读了有关Dr. Footcare的信息。在添加优惠券代码后,Footcare损失了可观的收入,另外,删除优惠券代码给 GoodUI.org 带来了积极的效果。鉴于这些外部数据,有人担心将优惠券代码字段添加到结帐会降低收入,即使没有优惠券,光是用户看到类似信息就会使得用户操作变慢,并导致他们搜索优惠代码,甚至放弃购买。
我们希望评估仅添加优惠券代码字段的影响。我们可以使用fake door或 paint door的方法。比喻是,我们弄一个假门或在墙上涂上油漆,看看有多少人试图打开它。我们实现了一个很小的更改,即将优惠券代码字段添加到结帐页面。我们没有实施真正的优惠券代码系统,因为没有可用的代码。无论用户输入什么,系统都提示:“无效的优惠券代码。” 我们的目标只是评估优惠券对收入的影响, 并评估它是否会导致人们在结账时被干扰。由于这是一个简单的更改,因此我们将测试两个UI实现。同时测试几种治疗方法很常见。在这种情况下,想法是添加优惠券代码,而实现是特定的UI更改。
这个简单的A / B测试是评估新业务模型可行性的关键步骤。
将建议的UI更改转换为假设时,将在线购物过程视为一个烟囱很有用,如图所示。客户从主页开始,浏览一些商品,将商品添加到购物车,开始购买过程,最后完成购买。当然,漏斗的想法很简单;客户很少以一致的线性方式完成这些步骤。每一步之间有很多来回回旋,而跳过中间步骤的重复访问者也是如此。但是,这种简单的模型对于通过实验设计和分析进行思考很有用,因为实验通常以改进漏斗中的特定步骤为目标。
对于我们的实验,我们在结帐页面中添加了优惠券代码字段,并且我们正在测试两个不同的UI(如图所示),并希望评估对收入的影响(如果有)。我们的假设是:“在结帐页面上添加优惠券代码字段会降低收入。”
为了衡量变更的影响,我们需要定义目标指标或成功指标。当我们只有一个时,我们可以将该指标直接用作我们的OEC(请参阅第7章)。此实验的一个显而易见的选择可能是收入。请注意,即使我们想增加总收入,我们也不建议您使用总收入本身,因为这取决于每个变体中的用户数量。即使为变体分配了相等的流量,实际的用户数量也可能由于偶然而有所不同。我们建议关键指标应通过实际样本量进行归一化,从而使每用户收入成为良好的OEC。
下一个关键问题是确定在“每用户收入”指标的分母中应考虑哪些用户:
所有访问网站的用户 这是可行的;但是,有很多噪音,因为它包括从未结过帐的用户。我们知道,从未结过帐的用户不会受到我们的更改的影响。排除这些用户将导致更敏感的A / B测试(请参阅第20章)。
只统计完成了购物的用户 该选择是错误的,因为它假定更改将影响购买的金额,而不影响完成购买的用户的百分比。如果购买更多的用户,则即使总收入增加,每用户收入也可能下降。
统计开始了购物流程的客户 鉴于我们的UI修改在漏斗中的位置,这是最佳选择。我们包括所有可能受影响的用户,但没有稀释我们结果的未受影响用户(从未开始结帐的用户)
我们更精确的假设为 : “在结帐页面上添加优惠券代码字段会降低开始购买过程的用户的每用户收入”。
假设检验:建立统计意义
在设计,运行或分析实验之前,让我们回顾一些与统计假设检验有关的基本概念。首先,我们通过了解 均值和标准差来表示指标,换句话说,指标的估计值将有多大变化。我们需要知道可变性,以适当地确定实验的大小并在分析过程中计算统计显着性。对于大多数指标,我们测量平均值,但我们也可以选择其他汇总统计信息,例如百分位数。平均值的标准差越低,灵敏度或检测统计学上显着差异的能力就越高。通常可以通过分配更多流量或运行实验更长的时间来实现,因为用户数量通常会随着时间的推移而增长。但是,后者可能在开始的几周后就没有效果,因为重复用户会导致唯一用户增长低于线性,而某些指标本身会随着时间而“增长”.
考虑到均值相同的零假设,我们定量测试了一对 treatment sample 和 contorl sample 之间的差异是否可能。如果不太可能,我们将拒绝Null假设,并声称差异具有统计意义。具体来说,给定“控制和治疗”样本中的“每用户收入”估算值,我们将计算出差异的p值,这是观察到这种差异或假设零假设为真的更极端情况的概率。我们拒绝Null假设,并得出结论,如果p值足够小,则我们的实验会产生效果(或结果具有统计学意义)。但是多小算足够小呢?
科学标准是使用小于0.05的p值,这意味着如果确实没有效果,我们可以正确地推断出100没有效果中的95次。检查差异是否在统计上显着的另一种方法是通过检查置信区间是否与零重叠。 95%的置信区间是覆盖95%的真实差异的范围,对于相当大的样本量,通常以观察到的治疗和对照之间的差异为中心,每侧扩展1.96标准误差。
使用p值评估观察到的增量是否具有统计学意义。如果p值小于0.05,我们声明该差异具有统计学意义。下图:使用95%置信区间[Δ− 1.96σ,Δ+ 1.96σ]评估统计显着性的等效视图。如果零位于置信区间之外,则我们声明结果是显著的。
统计功效(Statistical power)是指: 在确实存在差异时检测出差异之间有意义的的概率。实际上,你希望你的实验具有足够的能力,以便能够以较高的可能性得出结论,即实验是否导致了超出您所关注范围的变化。通常,当样本数量较大时,我们会获得更大的功效。设计实验以达到80-90%的功率是一种常见的做法。第17章进一步讨论了统计细节。
尽管“统计显着性”可以帮助我们识别有意义的变化,但有统计意义不代表有实际意义。从业务的角度来看,对于每用户收入而言,多大的差异才对我们有意义?换句话说,多大的变化才重要?
建立此实质性边界对于理解差异是否值得进行更改的成本非常重要。如果您的网站(例如Google和Bing)创造了数十亿美元的收入,那么0.2%的变化实际上是非常重要的。相比之下,一家初创公司可能会认为即使2%的变化也太小,因为他们正在寻找可以提高10%或更多的变化。对于我们的示例,让我们假设,从业务角度来看,每位用户收入增长1%或更多是一项重要的变化。