Trustworthy Online Controlled Experiments Part 2 Chap 5
第二部分 为所有人准备的主题
第二部分的会深入讨论五个主题,这些主题对于与实验相关工作的人来说,都值得一读, 尤其是领导层。
我们从速度问题开始:端到端案例研究开始,该示例使用仔细的实验设计和分析来展示延迟和站点速度的重要性,以此作为对用户参与度和收入的敏感的替代指标。对于可能跨站点,或者跨域的的分析,这也是一个很好的例子。
接下来,由于指标对于每个公司的数据决策都是至关重要的,因此我们引入了组织指标,无论领导者是否参与实验,领导者都应该理解,讨论和建立针对其组织的指标。我们讨论了这些指标的需求,以及如何创建,验证和迭代这些指标。
尤其是随着组织不断发展其实验实践,领导者需要就实验指标和总体评估标准(OEC)进行讨论,并在理论上达成共识。 OEC组合了一个或多个满足实验所需特定标准的组织指标。该组合用于对这些指标之间的折衷进行编码,从而使在线控制实验和大规模推动创新变得更加容易。
随着组织开始在“Run”和“Fly”成熟阶段进行规模试验(请参阅第4章),建立机构记忆和元分析变得越来越有用。机构记忆捕捉过去的实验和变化,并推动创新,以帮助鼓励以数据为依据的决策文化,并促进持续学习。
最后,在线控制实验是在真实的人身上进行的,因此控制实验中的道德规范和对最终用户的考虑非常重要。我们强调了道德对于在线控制实验的重要性,总结了一些的重要考虑因素,并指出了该领域的其他资源。
第五章 速度问题
- 网站反应慢的害处:沮丧的用户,负面的品牌认知度,增加的运营支出以及收入损失 − Steve Souders (2009)
- 工程师将服务器性能提高10毫秒(这是我们眨眼的速度的1/30)带来的收益,比雇佣一个全职工程师花费的薪水要高的多。每毫秒都很重要
− Kohavi, Deng, Frasca, Walker, Xu and Pohlmann (2013)- 提高速度,是我最爱的功能
− Google shirt circa 2009
为什么要关心速度?
我们从一个端到端例子开始,来评估速度的重要性。许多例子都集中在用户界面(UI)上,因为它很容易展示,但是服务器端也有许多突破,而且很多公司的发现,速度至关重要!当然,越快越好,但是将性能提高十分之一秒有多重要?你应该雇佣一个专注性能表现的人吗?也许一个五人的团队?为了回答这些问题,我们可以通过运行简单的减速实验来量化此类工作的投资回报率(ROI)。 2017年,Bing 的第二个十分之一(秒)的改进, 为公司每年增加了1800万美元的年收入,足以资助一支庞大的团队。根据这些结果,以及多年来在多家公司中进行的尝试,我建议将延迟用作此类实验的指标。
在亚马逊,一个100毫秒的减速实验使销售量减少了1%(Linden 2006,10)。 Bing和Google的发言人进行了一次罕见的联合演讲(Schurman和Brutlag,2009年),显示了性能对关键指标的重大影响,这些指标包括不同的查询,收入,点击次数,满意度和点击时间。 Bing于2012年进行的一项详细研究(Kohavi等人,2013年)显示,每100毫秒的提速可将收入提高0.6%。在2015年,随着Bing的性能提高,当95%的访问可以在百分之一秒内返回结果时,人们对继续提升服务器性能的价值产生了质疑。后续研究表明,虽然对收入的影响有所减少(比例),但由于Bing的收入增长了很多,以至于提高性能的每一毫秒都比过去更有价值:每提高4毫秒就为一名工程师提供了一年的薪水!
在《Why Performance Matters》(Wagner 2019)中展示了多个与绩效相关的结果,显示了转换率和用户参与度的改善; 尽管许多结果并非来自对照实验, 书中的一些效果提升可能来自于其他因素。
工作中可能面临的一个决定是,是否要使用第三方产品进行个性化或优化。其中一些产品要求在HTML页面顶部插入一个JavaScript代码段。这些阻塞的代码段使页面速度显着降低,因为它们需要与代码段提供商进行往返并传输通常为数十KB的JavaScript(Schrijvers 2017,Optimizely 2018b)。这会导致页面闪烁。根据延迟实验结果,目标指标的任何增加都可能被延迟增加的成本所抵消。因此,我们建议尽可能使用服务器端的个性化和优化功能,即让服务器端进行变量分配(请参见第12章)并为该变量生成HTML代码。
在本书中, 我们的目标是展示如何衡量速度对关键指标的影响,而不是如何提高响应速度。
运行此类实验的另一个好处是,可以生成一个从性能到关键指标的的映射,基于这个映射,我们可以回答以下问题:
绩效改善对收入的直接影响是什么?
性能改善是否会产生长期影响(例如,减少客户流失)?
对指标X有什么影响?通常,新功能的初始实现效率低下。如果A / B测试显示指标X下降,那么加快实施速度是否足以解决该指标下降问题?在许多情况下,新功能会稍微减慢网站或应用程序的速度,因此需要进行权衡,此映射会有所帮助。
性能改进在哪里更关键?例如,对于用户必须滚动查看的元素(也称为“折叠之下”)增加的延迟可能不太重要。类似地,右窗格元素不太重要。
为了进行对照实验,必须要将响应延时作为唯一个干扰因素。一般来说,很难在短期内提高性能以提供一个干预组的版本,因为如果可以的话, 工程师们早就在产品中实现了。因此我们采用一种简单的技术:降低网站或产品的速度。通过降低响应速度的结果来预测提高响应速度的结果, 当然, 这需要基于一些假设。