Trustworthy Online Controlled Experiments Part 5 Chap 18
方差估计和灵敏度提高:陷阱和解决方案
With great power comes small effect size
--- Unknown
为什么重要
如果无法以可信赖的方式分析实验,那么进行实验有什么意义呢?方差是实验分析的核心。我们介绍的几乎所有关键统计概念都与方差相关,例如统计显着性,p值,功效和置信区间。不仅要正确估计方差,而且要了解如何实现方差减少以提高统计假设检验的敏感性,这很有必要。
本章介绍方差,方差是计算p值和置信区间的最关键要素。我们主要关注两个主题:方差估计中的常见陷阱(和解决方案)以及减少方差以提高灵敏度的技术。
让我们回顾一下计算平均指标方差的标准过程,其中i = 1,…,n个独立的均匀分布样本。
-
计算指标(平均值):
-
计算样本方差:
-
计算平均方差,即样本方差按n因子进行缩放:
常见陷阱
如果您错误地估计了方差,则p值和置信区间将不正确,从而使假设检验的结论是错误的。关于方差估计,这里有一些常见的陷阱:
Delta vs. Delta %
在报告实验结果时,通常会使用相对差异而不是绝对差异。如果平均用户会话增加了0.01次,决策者很难判断它的实际意义。决策者通常理解遇到的是增加1%的幅度, 也就是相对差异(称为百分比增量)定义为:(18.1)
为了正确估计 %的置信区间,我们需要估计其方差。差异的方差是每个成分的方差之和:(18.2)
要估算 %的方差,常见的错误是将var(Δ)除以 ,即 。这是不正确的,因为它本身是一个随机变量。估计方差的正确方法是:(18.3)
我们将在下面的部分中讨论如何估算比率的方差。
比率指标,当分析的单位与实验的单位不同时
许多重要指标来自两个指标的比率。例如,点击率(CTR)通常定义为总点击次数与总浏览量之比;每次点击收入定义为总收入与总点击次数之比。与诸如“每用户点击次数”或“每用户收入”之类的指标不同,当使用两个指标的比率时,分析单位不再是用户,而是浏览量或点击次数。当按用户随机分配实验时,这可能会给估算方差带来挑战。
方差公式非常简单优雅,很容易忘记其背后的关键假设:样本必须为。 (独立地相同地分布)或至少不相关。如果分析单位与实验(随机)单位相同,则满足此假设, 否则一般会违反这个假设。对于用户级指标,每个代表用户的度量。分析单位与实验单位匹配,因此假设是有效的。但是,对于页面级指标,每个代表页面的度量,而实验是由用户随机进行的,因此都可能来自同一用户,并且是“相关的”。由于存在这种“用户相关性”,因此使用简单公式计算出的方差会产生偏差。
为了正确估计方差,可以将比率指标写为“用户级别指标的平均值”的比率(见公式18.4)
因为 与 在极限上是联合正态分布,所以M作为平均值的比,也呈正态分布。因此,通过delta方法,我们可以将方差估计为(Deng等人,2017年)(请参见公式18.5):
因为,在%的情况下,和是独立的(请参见公式18.6)
注意,当治疗和控制手段有显著差异时,这与的不正确估计值有很大不同, 因此。
请注意,有些度量标准不能以两个用户级度量标准的比率的形式写出来,例如,页面加载时间的百分之九十。对于这些指标,我们可能需要采用bootstrap方法(Efron和Tibshriani 1994),在该方法中,通过替换抽样来模拟随机化,并从许多重复的模拟中估算出方差。尽管 bootstrap 在计算上很昂贵,但它是一项功能强大的技术,广泛适用,并且是delta方法的良好补充。
异常值
离群值有多种形式。最常见的是由僵尸程序或垃圾邮件行为(单击或执行许多综合浏览量)引起的。离群值对均值和方差都有很大影响。在统计检验中,对方差的影响往往大于对均值的影响,正如我们使用以下模拟所证明的那样。
在模拟中,处理相对于控制具有正的真实增量。如果我们向干预组添加一个单一的阳性离群值,且该离群值是增量的的倍数。当我们改变乘数(相对大小)时,我们注意到,尽管异常值增加了处理的平均值,但其增加了方差(或标准差)。结果,您可以在图18.1中看到,随着离群值的相对大小增加,t统计量减小,并且最终检验不再具有统计显着性。
在模拟中,随着我们增加(单个)离群值的大小,抽样测试从非常显着变为完全不显着
在估计方差时,必须删除异常值。一种实用有效的方法是简单地将观测值限制在合理的阈值以内。例如,人类用户不太可能一天进行500次以上的搜索或浏览超过1000次。还有许多其他离群值去除技术(Hodge和Austin 2004)。
提升敏感度
在进行对照实验时,我们希望检测“治疗”效果是否存在。该检测能力通常称为功率或灵敏度。一种提高灵敏度的方法是减少方差。以下是一些实现方差的方法:
在捕获相似信息的同时创建方差较小的评估指标。例如,搜索数量的方差大于搜索者数量。购买金额(实际价值)的差异大于购买金额(布尔值)的差异。 Kohavi等。 (2009)给出了一个具体示例,其中使用转化率而不是购买支出将所需的样本量减少了3.3倍。
通过上限,二值化或对数转换来转换指标。例如,Netflix不使用平均流媒体播放时间,而是使用二进制指标来指示用户在指定时间段内流媒体播放的时间是否超过x小时(Xie and Aurisset 2016)。对于长尾度量标准,请考虑对数转换,尤其是在不考虑可解释性的情况下。但是,在某些指标(例如收入)中,对数转换可能不是针对业务进行优化的正确目标。
使用触发分析(请参阅第20章)。这是消除不受干预影响的人引入的噪音的好方法。
使用分层,控制变量或CUPED(Deng等人,2013年)。在分层中,可以采样区域划分为多个层次,分别在每个层次中进行采样,然后合并各个层次的结果以进行总体估算,该估算通常比没有分层的估算具有较小的方差。常见的层次包括平台(台式和移动),浏览器类型(Chrome,Firefox和Edge)和星期几等等。虽然分层通常是在采样阶段(在运行时)进行的,但大规模实施通常很昂贵。因此,大多数应用程序使用后分层,这是在分析阶段追溯应用分层的方法。当样本较大时,其执行方式类似于分层采样,但是如果样本大小较小且样本之间的变异性较大,这种方法可能也不会减小方差。控制变量基于类似的思想,但是它使用协变量作为回归变量,而不是使用协变量来构造层次。 CUPED是这些技术在在线实验中的一种应用,强调了实验前数据的利用(Soriano 2017,Xie和Aurisset 2016,Jackson 2018,Deb等人2018)。 Xie和Aurisset(2016)在Netflix实验上比较了分层,后分层和CUPED的表现。
-
以更细微的单位随机化。例如,如果您关心页面加载时间指标,则可以通过对每页进行随机化来大幅增加样本量。如果您要查看每个查询指标,还可以将每个搜索查询随机化以减少差异。请注意,小于用户的随机单位有一些缺点:
- 如果实验是要对UI进行显着更改,则为同一用户提供不一致的UI会带来不良的用户体验。
- 随着时间的流逝,无法衡量任何对用户级别的影响(例如,用户保留率)。
设计一个配对实验。如果您可以在配对设计中向同一用户显示“处理”和“控制”,则可以消除用户之间的差异并获得较小的方差。排序列表的一种流行方法是交错设计,可以交错两个排序列表并同时向用户显示联合列表(e joint list)(Chapelle等人,2012; Radlinski和Craswell,2013)。
-
池化控制组。如果有几个实验来对流量进行拆分,并且每个实验都有自己的控件,可以考虑合并单独的控件以组成一个更大的共享控件组。将每种干预方法都与该共享对照组进行比较,可以增加所有涉及实验的Power。如果知道要与对照组进行比较的所有干预方法的大小,则可以从数学上得出共享对照组的最佳大小。以下是在实践中实施此操作的注意事项:
如果每个实验都有自己的触发条件,则可能很难将它们全部置于同一控件上。
可能要在各种干预措施之间进行比较。 在这种情况下, 干预措施之间比较的 Power 与 干预措施与对照组之间的比较重要性如何?
“治疗组和对照组”大小相同有好处,即使合并的“对照”可能比“治疗”组更大。平衡的变体导致更快的正态性收敛(请参见第17章),并减少了对缓存大小的潜在担忧(取决于缓存实现的方式)。
其他统计差异
在本书的大多数讨论中,我们假设兴趣统计是均值。如果对其他统计信息(例如分位数)感兴趣,该怎么办?对于基于时间的指标(例如页面加载时间(PLT)),通常使用分位数而不是平均值来衡量站点速度性能。例如,第90个百分点或第95个百分点通常测量与用户参与相关的负载时间,而第99个百分点则通常是服务器端延迟测量。
虽然总是可以 借助 bootstrap 和 尾部概率 来对进行统计分析,但是随着数据大小的增加,这种方法在计算上变得昂贵。另一方面,如果统计量渐近地服从正态分布,则可以简单地估算方差。例如,分位数度量的渐近方差是密度的函数(Lehmann和Romano 2005)。通过估计概率密度,可以估计方差。
还有另一层复杂性。大多数基于时间的指标是在事件/页面级别,而实验是在用户级别随机进行的。在这种情况下,应结合使用密度估计和增量法(Liu等人2018)。