Trustworthy Online Controlled Experiments Part 2 Chap 11
弱者相信运气, 强者相信因果
− Ralph Waldo Emerson
为什么重要
随机对照实验是确定因果关系的金标准,但有时无法进行这样的实验。很多公司都在大量的收集数据,尽管信任度较低,但观察性因果关系研究还是可用于评估因果关系。如果无法进行在线控制的实验,那么了解可能进行的实验和常见的陷阱还是很有用的。
无法进行随机试验的场景
如果用户将手机从iPhone切换到三星,对产品参与度有何影响?如果我们强行退出,有多少用户回来?如果将优惠券作为业务模型的一部分引入,对收入会产生什么影响?对于所有这些问题,分析目标是发现因果关系。这需要将受干预人群的结果与未干预人群的结果进行比较。 “因果推论的原理”(瓦里安,2016年)为:
并表明,将实际影响(对被治疗人群的影响)与反事实(对未治疗人群的影响)进行比较是确定因果关系的关键。
对照实验是评估因果关系的金标准,因为在将样本随机分配的情况下,第一项是观察到的治疗和对照之间的差异,第二项是预期值为零。
但是,有时无法运行适当控制的实验。这些情况包括:
当要检验的因果行为不在组织的控制之下。例如,您可能想了解用户将手机从iPhone更改为Samsung Galaxy手机时的行为变化。即使是三星公司,可以采取一些措施鼓励用户随机选择,但通常情况下,依然无法控制用户的选择,付费的行为会使结果产生偏差。
样本太少。例如,在并购(M&A)场景中,只有一个事件发生(或不发生),并且估计反事实非常困难。
机会成本过大。例如,罕见事件,例如在超级碗期间确定正在投放的广告的影响(Stephens-Davidowitz,Varian和Smith,2017年),或者所需的OEC花费的时间太长(例如用户在5年后是否会购买一辆新车)。
当变化比较昂贵的时。一些实验试图更好地理解一些关系。例如,如果在一段时间后强行退出所有用户,将会流失多少用户?或者,如果不在Bing或Google等搜索引擎上展示广告,会有什么影响?
当所需的随机样本无法正确随机化时。在评估电视广告的价值时,实际上不可能由观看者随机分配。使用指定市场区域(DMA)的替代方法(Wikipedia贡献者,多重比较问题2019)导致样本数量少得多(例如,在美国约为210个),因此即使使用配对等技术,统计能力也很低。
当所测试的东西不道德或违法时,例如,让对照组患者不接受治疗。
在上述情况下,最好的方法通常是使用证据层次较低的多种方法来评估效果,也就是说,使用多种方法来回答问题,包括小规模的用户体验研究,调查和观察性研究。有关其他几种技术的介绍,请参见第10章。
在本章中,我们的重点是估计观察性研究的因果效应,我们将其称为观察性因果研究。一些书,例如Shadish等。 (2001年),术语“观察性(因果)研究”是指没有干预受试者的研究,术语“准实验设计”是指将样本分配给不同干预组但分配不是随机的研究。有关更多信息,请参见Varian(2016)和Angrist and Pischke(2009,2014)。请注意,我们将观察性因果研究与更一般的观察性或回顾性数据分析区分开来。两者都基于历史日志数据,观察性因果关系研究的目标是尝试尽可能接近因果关系结果,而正如第10章所讨论的,回顾性数据分析有不同的目标,它包括从总结分布到发现某些行为模式的普遍性,分析可能的指标以及寻找可以受控实验中进行测试的假设。
设计一个观察型因果关系研究
观察型因果关系研究有如下挑战:
- 如何构建对照和治疗组以进行比较。
- 在给定“控制和治疗”组的情况下,如何建模。
中断时间序列
中断间序列(ITS)是一种准实验设计,可以在其中控制系统中的变量,但不能随机化干预方案以进行适当的控制和干预。取而代之的是,将相同的人群用于控制和治疗,并且随着时间的推移,会改变人群的体验。
具体来说,它会在一段时间之内多次测量干预,以创建一个模型,该模型可以在干预后为感兴趣的指标提供一个反事实估计值 。干预后,进行多次测量,并将治疗效果定义为指标的实际值与模型预测的值之间的平均差(Charles and Melvin 2004,130)。简单ITS的一种扩展是引入干预,然后将其逆转,可以选择重复多次此过程。例如,使用多种治疗干预措施,估计警用直升机监视对家庭入室盗窃的影响,几个月以来,实施了几次监视并撤回了几次。每次实施直升机监视,入室盗窃的数量都会减少。每次取消监视,入室盗窃的数量都会增加(Charles and Melvin 2004)。在在线环境中,一个类似的例子是了解在线广告对与搜索相关的网站访问的影响。注意,可能需要复杂的建模来推断干预影响,可以用贝叶斯结构时间序列分析(Charles and Melvin 2004)。
观察性因果研究的一个常见问题是,当存在某种混杂的影响时,需要排除这种干扰的影响。 ITS最常见的混淆是基于时间的影响,因为实验要在不同的时间点进行比较。季节性是明显的例子,但是其他潜在的系统更改也可能造成混淆。来回更改多次将有助于降低这种可能性。使用ITS时的另一个问题是用户体验:用户会注意到他们的体验来回翻转吗?如果是这样,那么这种缺乏一致性可能会以某种方式使用户烦恼或沮丧,这种影响可能不是由于更改而是由于不一致引起的。
使用贝叶斯结构时间序列的中断时间序列(Charles and Melvin 2004)。 (a)以实线显示了干预前时期的模型拟合和实际观察到的指标,虚线是预测的反事实。 x轴是天数 ,垂直阴影线表示周末。 (b)显示实际与预测之间的差额;如果模型是好的,那么它是对干预效果的估计。周末用灰色阴影显示。
交错试验
交错实验设计是用于评估排名算法更改(例如在搜索引擎中或在网站上进行搜索)的常用设计(Chapelle等人,2012; Radlinski和Craswell,2013)。假设在一个交错实验中,有两个排序算法X和Y。算法X将按该顺序显示结果而算法Y将显示。交错实验会散布混合在一起的结果,例如 并删除重复的结果。
一种评估算法的方法是比较两种算法结果的点击率。尽管这是功能强大的实验设计,但其适用性受到限制,因为结果必须同质。如果通常情况下,如果第一个结果占用更多空间或影响页面的其他区域,那么结果就会比较复杂。
回归间断设计
回归不连续性设计(RDD)是一种方法,只要有明确的阈值可以识别干预人群,就可以使用该方法。基于该阈值,我们可以通过将刚好在阈值以下的人口识别为对照,并与刚好在阈值之上的人口进行比较来减少选择偏误。
例如,当获得奖学金时,容易识别出接近获奖者(Thistlewaite and Campbell 1960)。如果奖学金的阈值是80分,则认为分数刚好高于80的治疗组与分数刚好低于80的对照组相似。但是当参与者可能影响施加在他身上的干预时,该假设就会被违反;例如,如果“治疗”适用于及格分数,但学生能够说服老师“怜悯及格”(McCrary 2008)。(学生干预了对学生的评分)
使用RDD的一个示例是评估饮酒对死亡的影响:21岁以上的美国人可以合法饮酒,因此我们可以按生日查看死亡,如图11.2所示。 “死亡率风险会在二十一岁生日那天突然爆发……相对于基线水平,那一天的死亡数会升高100~150例。 21岁的飙升似乎并不是通常遇到的的生日聚会效应。如果这一高峰仅反映了生日聚会,那么其他相近年岁的生日也应该出现类似的变化(20,22岁),但这并没有发生(Angrist和Pischke,2014年)。
从20岁,21岁和22岁生日起的死亡与天数对比(Angrist and Pischke 2014)
就像上面的例子一样,一个关键问题还是混杂因素。在RDD中,阈值不连续性可能会受到共享同一阈值的其他因素的污染。例如,一项关于酒精影响的研究选择了21岁的法定年龄作为阈值,这一事实也可能被污染,因为这也是合法赌博的法定年龄。(21岁是合法喝酒和赌博的法定年龄,因此无法区分)
当存在生成分数的算法并且基于该分数的阈值发生某些事情时,RDD最常适用。请注意,当这种情况在软件中发生时,虽然一种选择是使用RDD,但这种情况也很容易使其适用于随机对照实验,或两者的某种混合体(Owen和Varian 2018)。
工具变量(IV)和自然实验
工具变量(IV)是一种试图近似随机分配的技术。具体而言,目标是确定一种工具,使我们能够近似随机分配(自然实验中自然发生)(Angrist和Pischke 2014,Pearl 2009)。
例如,为了分析退伍军人与非退伍军人之间的收入差异,越南战争征兵抽签类似于将个人随机分配给军队;特许学校的座位是通过抽签分配的,因此对于某些学习来说可能是不错的选择。在这两个示例中,抽签均不能保证出席率,但对出席率影响很大。然后通常使用两阶段最小二乘回归模型来估计效果。
有时,可能会发生“好于随机”的自然实验。在医学上,单卵双生子允许进行双生子研究作为自然实验(Harden等人,2008; McGue 2014)。在研究社交网络或对等网络时,进行受控实验可能具有挑战性,因为由于成员之间的交流,其效果可能不会受到治疗人群的限制。但是,通知队列和消息传递顺序是自然实验的类型,可以利用它们来了解干预的影响。
倾向得分匹配 Propensity Score Matching
这里的另一类方法是构造可比较的“控制和干预”人群,通常是按照常见的干扰因素对用户进行细分,类似于分层抽样。这样做的目的是确保对照人群和治疗人群之间的比较不会由于人群结构的变化而引起。例如,如果我们正在研究从Windows更改为iOS的用户的影响的外源性变化,我们要确保我们没有衡量人口的人口差异。
我们可以通过采用倾向得分匹配(PSM)来进一步采用这种方法,该方法不是匹配协变量上的单位,而是匹配一个数字:构造的倾向得分(Rosenbaum and Rubin 1983,Imbens and Rubin 2015)。这种方法已用于在线空间,例如,用于评估在线广告活动的影响(Chan等,2010)。关于PSM的主要问题是只考虑观察到的协变量,因此无法测量的因素可能会导致隐藏的偏见。 Judea Pearl(2009,352)写道:“ Rosenbaum和Rubin……在警告从业者时说的非常清楚,倾向得分仅在 '考虑了足够多的潜在因素' 条件下起作用。但是,他们没有意识到的是,仅仅警告人们注意自己无法识别的危险是不够的。”金和尼尔森(King and Nielsen,2018年)声称,PSM“结果往往和预期目标相反,从而加剧了不平衡,低效,模型依赖性和偏见。”
对于以上所有这些方法,关键问题是混淆因素 (confounding factors)。
Difference in Differences (DID)
上面的许多方法着重于如何发现与治疗组尽可能相似的对照组。鉴于此,一种衡量干预效果的方法是差异中的差异(DD或DID),假设存在共同趋势,则将差异归因于干预。特别是,这些群体“在没有治疗的情况下可能会有所不同,但会平行发展”(Angrist and Pischke 2014)。
基于地理位置的实验通常使用这种技术。您想了解电视广告对的作用。在一个DMA中投放电视广告,然后将其与另一个DMA进行比较。 如图所示,在时间T1对治疗组进行了更改。在T1之前和之后的T2分别对治疗和对照进行测量。假定对照组中两个时期之间的关注指标(例如OEC)之间的差异是为了捕获外部因素(例如,季节性,经济实力,通货膨胀),从而呈现出与实际情况相反的事实。将治疗效果估算为相关指标的差异减去同一期间内该指标的对照差异。
请注意,即使不进行干预,更改是外部发生的,也可以应用此方法。例如,当新泽西州的最低工资发生变化时,想要研究其对快餐店就业水平的影响的研究人员,将其与宾夕法尼亚州东部的情况进行了比较,宾夕法尼亚州的东部与新泽西州有很多共同点(Card and Krueger 1994)。
陷阱
尽管有时观察性因果关系研究是最好的选择,但应注意一些陷阱(有关更详尽的列表,请参见Newcomer等人(2015年))。如上所述,进行观察性因果关系研究的主要陷阱,无论采用何种方法,都是意料之外的混杂因素,这些混杂因素会影响所测得的效果以及因果关系对利益变化的影响。由于这些混杂因素,观察因果关系研究需要付出很大的努力才能产生可信赖的结果。另外,有许多对观察因果关系研究的反驳(请参阅本专栏的“对观察因果关系研究的反驳”,以及本章后面的第17章)。
性别导致了预期寿命与手掌大小的不同, 不能依据手掌大小来预测寿命。
混淆的一种常见类型是无法识别的原因。例如,在人类中,手掌大小与预期寿命密切相关:平均而言,手掌越小,寿命就越长。但是,手掌较小和预期寿命较长的常见原因是性别:女性手掌较小,平均寿命更长(在美国大约为6年)。
再举一个例子,对于包括Microsoft Office 365在内的许多产品,遇到更多Bug的用户的的流失率通常会更低!但是,从直觉就可以判断出来, 肯定不是bug导致了用户更喜爱该产品。这种相关性是由于以下常见原因造成的:经常使用该产品的用户会看到更多错误,并且流失率更低。对于功能所有者来说,新功能用户流失率较低的情况并不少见,但这并不一定意味着新功能可以留住用户。也许是使用新功能的往往是重度用户, 这些用户很累流失, 倒是是哪一种原因?在这些情况下,要评估新功能是否确实可以减少客户流失,需要受控实验(并分别分析新用户和老用户)。
要注意的另一个陷阱是虚假或欺骗性的关联。欺骗性的相关性可能是由强烈的异常值引起的,例如,如图11.5所示,营销公司可以声称其能量饮料与运动表现高度相关,并暗示因果关系:喝我们的能量产品,您的运动表现将会改善(Orlin 2016)。
运动表现与消耗的能量饮料数量之间存在欺骗性的相关性。相关并不表示因果关系!
几乎总是可以找到虚假的相关性(Vigen 2018)。当我们检验许多假设时,并且当我们没有直觉来拒绝因果主张时,就像我们在上面的例子中那样,我们可能会相信它。例如,如果某人告诉你,他发现了一个因素,这个因素与被毒蜘蛛杀死有很强相关性(r = 0.86) ,那么你可能会倾向于对这些信息采取行动。但是这个因素是National Spelling Bee 测试中单词的长度,如图,那你肯定不会试图缩短单词长度以减少死亡率,这是不合理的。
Scripps National Spelling Bee中被毒蜘蛛杀死的人与单词长度的虚假相关性
在真实世界中,即使采取了谨慎措施,也无法保证观察性因果研究中没有包含可能影响结果的其他因素。试图得出反事实以进行比较,并由此建立因果关系的准实验方法需要做出许多假设,其中任何一个都可能是错误的,并且某些假设是隐含的。错误的假设可能会导致实验缺乏内部有效性,同时,不合适的假设及其局限性,也会影响研究的外部有效性。如第1章所述,建立直觉可以帮助提高假设的质量,但是直觉并不能消除所有可能出现的问题。因此,建立因果关系的科学金标准仍然是受控实验。
补充: 对观察因果关系研究的反驳
要从观测数据中得出因果关系,需要多个无法测试且容易违背的假设。虽然后来许多随机对照实验证实了许多观察性因果关系研究(Concato,Shah和Horwitz 2000),其他的实验则被反驳了。约阿尼迪斯(Ioannidis,2005年)评估了来自高引研究的结果;在他的研究中包括六项观察性因果研究,其中五项无法重复。 Stanley Young和Alan Karr(2019)使用观察性因果研究(即非对照)和被认为更可靠的随机临床试验,比较了医学已发表结果,这些结果都是统计显著的。在12篇论文中的52项结果中,没有一项在随机对照试验中可重复。在52例中的5例中,在与观察因果关系研究相反的方向上具有统计学意义。他们的结论是:“来自观察性研究的任何说法非常有可能是错误的。”
在线领域的一个例子是如何衡量在线广告的有效性,换句话说,在线广告是否导致了品牌活动的增加甚至用户参与度的提高。通常需要观察性因果研究来衡量效果,因为干预(广告)和效果(用户注册或参与)通常位于不同的位置,因此在不同的控制范围内。 Lewis,Rao和Reiley(2011)比较了观察性因果研究相对于“黄金标准”对照实验所估计的在线广告的有效性,发现观察性因果研究大大高估了效果。具体来说,他们进行了三个实验。
首先,向用户显示广告(展示广告),研究的问题是:使用与广告中显示的品牌相关的关键字进行搜索的用户数量增加了多少? 通过对5千万用户的观察性因果研究,包括3个带有Control变量的回归分析,估计的提升幅度为871%至1198%。该估计比通过对照实验测得的5.4%的提升高出几个数量级。混淆因素是用户访问Yahoo!的常见原因。积极访问Yahoo!的用户在特定日期更有可能看到展示广告并执行Yahoo!搜索。广告的曝光率和搜索行为高度正相关,但展示广告对搜索的因果影响很小。(没太看明白原文的意思,附原文)
First, advertisements (display ads) were shown to users, and the question
was: What is the increase (lift) in the number of users who search using keywords
related to the brand shown in the ad. Using several observational causal studies of
50 million users, including three regression analyses with Control variables, the
estimated lift ranged from 871% to 1198%. This estimated lift is orders of
magnitude higher from the lift of 5.4% measured via the controlled experiment.
The confound is common cause of users visiting Yahoo! in the first place: Users
who actively visit Yahoo! on a given day are much more likely to see the display
ad and to perform a Yahoo! search. The ad exposure and the search behavior are
highly positively correlated, but the display ads have very little causal impact on
the searches.
接下来,网站向用户展示了视频,问题是这些视频是否会导致活动增加。用户是通过Amazon Mechanical Turk招募的,其中一半暴露于宣传Yahoo.com服务的30秒视频广告(即“治疗”),一半暴露于政治性视频广告(“对照”),其目的是衡量用户访问Yahoo!的活动是否有所增加。 研究人员进行了两项分析:
- 观察性研究 --- 受试者在看了 30秒 Yahoo! 广告前后的活动是否增加
- 看Yahoo! 广告与看政治广告的受试者直接的对照分析
结果表明, 观察性研究高估了 350%。 在这里,混淆因素是,受试者在特定的一天在Amazon Mechanical Turk上活动, 会增加该受试者 在Yahoo!上的活动。
最后,在Yahoo!上向用户展示了一个广告系列。目的是评估观看广告的用户在观看广告当天是否更有可能在竞争对手的网站上进行注册。观察性因果研究对比了当天看了广告的用户以及这些用户一周之前的行为,而控制实验则对当天访问了Yahoo! 看到和没看到那个广告的用户进行了比较。根据观察性因果研究的结论,与前一周相比,看过广告的用户更有可能在看到广告的那一天在竞争对手的网站上进行注册。但是,从对照实验中,实验人员观察到, 是否看广告对受试者的行为没有影响。该结果类似于我们之前对客户流失的错误的讨论:活跃的用户只是更有可能更活跃。这里,活跃度是一个混淆因素。
Finally, an ad campaign was shown to users on Yahoo! with the goal of
measuring whether users who saw the ad were more likely to sign up at the
competitor’s website on the day they saw the ad. The observational causal study
compared users exposed to the ad on the day they saw the ad relative to the week
before, while the experiment compared users who did not see the ad but visited
Yahoo! on that day to the users who came to Yahoo! on the same day and saw the
competitor ad. From the observational causal study, exposed users were more
likely to sign up at the competitor’s website the day they saw the ad compared to
the week before. However, from the experiment, they observed a nearly identical
lift. This result is similar to our previous discussion of churn and errors: More
active users are simply more likely to do a broad range of activities. Using
activity as a factor is typically important.
这只是一个故事。最近的一项比较研究还发现,观察性因果研究的准确性不如在线对照实验(Gordon et al.2018)。我们在https://bit.ly/experimentGuideRefutedObservationalStudies 上提供了更多故事,其中显示了常见的未知原因,时间敏感的混杂因素,人口差异导致缺乏外部有效性等示例。在使用观察性因果研究的时候, 一定要当心。