Trustworthy Online Controlled Experiments Part 5 Chap 17
第五部分 实验分析的高级话题
第五部分包括七个高级分析主题,主要针对数据科学家和愿意深入了解受控实验的的人员。
我们从在线控制实验背后的统计学开始,该统计数据概述了t检验,p值和置信区间计算,正态性假设,统计功效以及I / II型错误。它涵盖了多种测试和费舍尔的荟萃分析方法。
下一章是方差估计和改进的灵敏度:陷阱和解决方案,我们从标准公式开始,随后展示了一个非常常见的陷阱,需要使用增量法。然后,我们回顾了减少方差的方法,从而提高了实验的灵敏度。
A / A测试涵盖了提高实验系统的可信度并发现软件或使用的统计信息中的实际问题和错误的最佳方法。借助于 A / A测试,我们发现了许多陷阱。
提高触发灵敏度的一章详细介绍了关键概念-触发。因为并非每个实验都会影响所有用户,所以可以通过减少可能没有受到影响的用户的噪音来提高敏感性。随着组织的成熟,触发的使用也在增长,随之而来的是有助于分析和调试的工具。
接下一章着眼于样本比率不匹配(SRM)和其他与信任相关的护栏指标。 SRM在实践中很常见,当存在SRM时,结果看起来非常正面或极端负面,但是是不可信的。自动运行这种测试(和其他测试)对于结果的可信赖性至关重要。
在某些现实环境中,例如多边市场和社交网络,实验版本可能会泄漏信息,这是我们在不同版本之间的泄漏和干扰中涉及的主题。
在结束时提出了一个仍在研究中的重要问题:测量长期效果。我们尝试提几种实验设计来解决这一目标。
在线受控实验背后的统计方法
吸烟是统计学出现的主要原因
– Fletcher Knebel
为什么重要
统计是设计和分析实验的基础。
本章介绍几种统计概念,并且将深入探讨对实验至关重要的统计学,包括假设检验和统计能力(Lehmann和Romano 2005,Casella和Berger 2001,Kohavi,Longbotham等2009)。
Two-Sample t 检验
Two-Sample t 检验(双样本t检验) 是最常见的统计显着性检验,用于确定我们看到的治疗和控制之间的差异是真实的还是仅是噪音(Student 1908; Wasserman 2004)。双样本t检验考察了两个均值之间的差异相对于方差的大小。差异的显着性由p值表示。 p值越低,则表明治疗与对照不同的证据越强。为了将两个样本的t检验应用于感兴趣的度量Y(例如,每个用户的查询),假定在干预和控制中用户对度量的观察值是随机变量和的独立的。 Null假设()是和具有相同的均值,备则假设()是它们均值不相同(请参见公式17.1):
双样本t检验基于t统计量T:
其中, 是治疗平均值和对照平均值之间的差,平均值的偏移量为无偏估计量。由于样本是独立的:
t统计量T只是的归一化形式。
凭直觉,T越大,均值相同的可能性就越小。换句话说,T越大越有可能拒绝零假设。如何量化呢?
p 值 和 置信区间
有了t统计量T,就可以计算p值了,这是如果在治疗和控制之间确实没有差异的情况下T至少会达到这个极值的可能性。按照惯例,p值小于0.05的差异都被视为“具有统计学意义”,尽管正在进行的辩论要求默认使用较低的p值(Benjamin等人,2017)。小于0.01的p值被认为是非常重要的。
尽管p值是最著名的统计术语之一,但它经常被误解。一种常见的误解是,在观察到的数据给定的情况下,p值会捕获Null假设为真的概率。从表面上看,这是一个合理的解释,因为大多数实验者都希望他们的干预方法有效。但是,正确的解释几乎相反,真正的解释是在 Null假设为真的情况下, 观察到当前的差异的可能性。要了解这两种解释有何不同,且有什么关联,可以使用贝叶斯规则将其分解:
如方程式所示,要根据收集的数据(后验概率)知道Null假设是否正确,不仅需要p值,还需要Null假设正确的可能性。
检查差异是否在统计上有意义的另一种方法是检查置信区间是否包含0值。某些人发现置信区间是一种比p值更直观的方式来解释观察到的增量附近的噪声和不确定性。 95%的置信区间是指覆盖95%的时间的真实差异并且等效于0.05的p值的范围;如果95%置信区间不包含零或p值小于0.05,则该差异在0.05的显着性水平上具有统计学意义。在大多数情况下,的置信区间以观察到的为中心,并在每一侧延伸约两个标准差。对于(近似)服从正态分布的所有统计信息(包括百分比增量),都是如此。
正态假设
在大多数情况下,我们以t统计量T服从正态分布为前提来计算p值,并且在Null假设下,分布的均值为0,方差为1。p值只是正态曲线下的面积,正如第2章中的图2.1中突出显示的那样。许多人误以为正态性假设是度量Y的分布的假设,并认为这是一个糟糕的假设,因为在实践中几乎没有度量遵循正态分布。但是,在大多数在线实验中,“对照”和“治疗”的样本量至少为数千, 此时,尽管Y的样本分布不服从正态分布,但由于中心极限定理(Billingsly 1995),通常采用平均值分布。图17.1说明了从β分布抽取的样本Y的收敛性。随着样本数量的增加,平均值的分布将变得更正态分布。
随着样本数量n的增加,平均值的分布变得越来越正态
每个变量的平均值具有正态分布所需的最小样本数的一个经验法则是 (Kohavi 2014),其中𝑠是度量Y的样本分布的偏度系数,如公式17.5所定义:
一些度量标准,尤其是收入度量标准,往往具有较高的偏度系数。减少偏度的一种有效方法是转换度量标准或设置值的上限。例如,在Bing将“每位用户的每周收入/用户”设置为10美元之后,他们发现偏斜度从18下降到5,而所需的最低样本量也从114k下降到10k。此经验法则为| s |> 1 时提供了很好的指导, 但对当偏度比较小的时候, 比较无效。不过,当偏斜度较小时,通常需要较少的样本(Tyurin 2009)。
对于两样本t检验,因为您正在查看具有相似分布的两个变量的差异,所以使正态性假设合理的样本数往往会减少。如果治疗和控制具有相同的流量分配,则尤其如此(Kohavi 2014),因为差异的分布近似对称(在零假设下,零偏度是完全对称的)。
如果您想知道样本量是否足够大以假定正态性,请使用脱机模拟对其进行至少一次测试。您可以在“治疗和控制”中随机洗检样本以生成零分布,并使用统计检验(例如Kolmogorov-Smirnov和Anderson-Darling)将该分布与正态曲线进行比较(Razali和Wah 2011)。由于在假设检验中关注尾分布,因此您也可以通过仅关注I型错误率是否受预设阈值(例如0.05)限制来提高检验灵敏度。
当正态性假设失败时,您可以进行置换检验(Efron和Tibshriani 1994),并观察相对于模拟零分布的观察位置。请注意,即使大规模进行排列测试非常昂贵,但有时需要使用较小样本量的情况,因此在实践中效果很好。
I / II型错误和 Power
任何测试都会出错。在假设检验中,我们关心I型和II型错误。 I型错误的结论是,在没有实质性差异的情况下,实验宣称治疗与控制之间存在显着差异。 II型错误是实验宣称Null 假设为真,也就是说, 实验没有发现差异, 但是实际上二者存在差异。 可以预见,p值的阈值选取会对 I / II型错误 同时造成影响, 如果想降低 1型错误概率, 就会提高2型错误的概率, 反之亦然。
II型错误的概念被称为 Power。Power 是在确实存在差异时检测变体之间差异的可能性,即拒绝Null 假设的概率(请参见公式17.6):
功率通常由实际应用的最小增量δ来参数化。在数学上,假设所需的置信度为95%,则公式如公式17.7所示:
行业标准是在我们的测试中至少达到80%的功率。因此,通常在开始实验之前进行功率分析,且需要多少样本才能获得足够的功率。假设处理组和控制组较小,则可以从上面的功效公式中达计算达到80%功效所需的样本总数,大约等于公式17.8(van Belle 2008):
其中,是样本方差,而δ是处理与对照之间的差异。人们经常问的一个问题是,他们在进行实验之前如何知道 ?的确,我们不知道真实的,这就是进行实验的原因。
但是,我们知道在实践中多大才有意义,换句话说,具有实际意义的大小。例如,收入相差0.1%的时候大家不太会关心,但是收入下降1%的情况就不行了。在这种情况下,实际上0.1%无效,而1%实际有效。要估算所需的最小样本量,首先需要确定最小 (也称为最小可检测效果)。
对于在线实验,由于在线用户的数量是在一段时间内统计出来的,因此样本大小估算更为复杂,因此实验的持续时间也对实验的实际样本大小起着重要作用。取决于随机单位,样本方差 也可以随时间变化。另一个挑战是使用触发分析(请参阅第20章),随着触发条件在整个实验中的变化, 和值也会变化。由于这些原因,我们在第15章介绍了一种更为实用的方法,用于确定流量分配和大多数在线实验的持续时间。
我们要强调对Power概念的常见误解。许多人认为功率是测试的绝对属性,却忘记了它与要检测的效果的大小有关。具有足够能力检测10%差异的实验不一定具有足够能力检测1%差异。一个很好的类比是“找不同”的游戏。图17.2证明,相对于斑点的差异(实心圆),更容易检测到睡莲叶上的差异(因为差异大)(虚线圆)。
用统计能力比喻“发现差异”。
功耗分析与I型和II型错误紧密相关。 Gelman和Carlin(2014)认为,对于较小的样本量设置,计算a)估计方向错误的可能性(Type S [sign]误差)和b)影响幅度大小的因素也很重要。效果可能被高估了(类型M [幅值]误差或夸张率)。
偏误
在实验结果中,当均值的估计值和真实值系统不同时,就会出现偏差。这可能是由于平台错误,有缺陷的实验设计或无代表性的样本(例如公司员工或测试帐户)引起的。我们在第3章中讨论了一些预防和检测这些问题的例子和建议。
多重实验
当我们为每个实验计算数百个指标,常会听到实验者抱怨 “为什么这个看似无关紧要的指标很重要?” 这是一种简答化的看法。如果为实验计算100个指标,那么即使不执行任何操作,猜猜你仍会看到多少个具有统计意义的指标?在显着性水平为5%的情况下,答案大约为5个(假设指标是独立的)。当检查数百个实验并且每个实验进行多次迭代时,这个问题会更严重。当并行测试多个事物时,错误发现的数量就会增加。这称为“多重测试”问题。
如何确保在多次测试中仍能合理控制I型和II型错误?有许多经过深入研究的方法。但是,大多数方法要么简单但过于保守,要么复杂,因此难以实施。例如,流行的Bonferroni校正使用了一致但较小的p值阈值(0.05除以测试次数),这过于保守。 Benjamini-Hochberg过程(Hochberg和Benjamini 1995)对不同的测试使用不同的p值阈值,这又过于复杂。
因此,当一个指标出乎意料地重要时,应该怎么做?这是一个简单的两步法则:
1.将所有指标分为三组:
- 一阶指标:希望受到实验影响的指标
- 二阶指标:可能受到影响的指标
- 三阶指标:那些不太可能受到影响的指标。
2.将分层的显着性水平应用于每个组(例如分别为0.05、0.01和0.001)。
这些经验法则基于一个有趣的贝叶斯解释:进行实验之前就相信零假设(H0)是正确的?信心越强,就应该使用更加严格的p门槛。
Fisher 荟萃分析
在第8章中,我们讲述了如何利用历史实验的荟萃分析, 以进行模式识别,创建和利用机构记忆。在本节中,我们特别感兴趣的是将对同一假设进行检验的多个实验的结果进行组合。例如,复现具有令人惊讶结果的实验是一种常见的技术。一般使用正交随机分配的用户进行复现。这两个实验(原始实验和复现实验)都产生彼此独立的p值。直观地,如果两个p值均小于0.05,比只有一个p值小于0.05更有力地证明了该方法有效。 Fisher在他的荟萃分析方法中将这种直觉形式化(Fisher 1925),称我们可以将多个独立统计检验的p值组合为一个检验统计量,如公式17.9所示:其中pi是第i个假设检验的p值。如果所有k个零假设都成立,则该检验统计量遵循自由度的卡方分布。 Brown(1975)将Fisher的方法扩展到p值不独立的情况。还有其他p值组合方法,例如Edgington(1972),Volumne 80(2)以及Mudholkar和George(1979)。有关更多讨论,请参见Hedges和Olkin(2014)。
通常,Fisher的方法(或任何其他荟萃分析技术)对于提高功效和减少假阳性非常有用。即使应用了所有增加功率的技术(例如最大功率流量分配(请参阅第15章)和方差减少(请参阅第22章))之后,实验也可能功率不足。在这种情况下,可以考虑同一实验的两个或多个(正交)复现(一个接一个),并通过使用Fisher的方法组合结果来获得更高的 Power。