Trustworthy Online Controlled Experiments Part 1 Chap 3
分组差异
通过不同的细分分析指标可以提供有趣的见解并导致有意义发现,我们有时会使用特威曼定律并发现缺陷或新见解,以帮助将来对某个想法进行迭代。当你的产品已经成熟了以后, 你可以进行一些高级测试, 以发现细分市场规律。这里对分类进行一些举例:
- 不同的市场或国家/地区:某些功能在某些国家/地区效果更好;有时性能不佳的原因是无法翻译成另一种语言(即本地化)。
- 设备或平台:浏览器,台式机或手机上的用户界面是?他们使用的是哪个移动平台:iOS还是Android?有时,浏览器版本可以帮助识别JavaScript错误和不兼容性。在手机上,制造商(例如三星,摩托罗拉)提供的附加组件可能会导致功能失效。
- 一天中的时间和一周中的一天:随着时间的推移绘制效果可能会显示出有趣的模式。周末的用户在许多特征上可能有所不同。用户类型:新用户或现有用户,其中新用户是在日期之后(例如,实验开始或一个月前)加入的用户。
- 用户帐户特征:Netflix上的个人账户与共享帐户,或者Airbnb上的个人旅行者与家庭旅行者。
细分视角的2个套路
- 在衡量指标上进行细分, 这个对任何实验都适用
- 干预方法对不同人群不同,存在差异, 所以要细分看待。
对指标进行细分
Bing 发现广告的点击率在不同操作系统上差异很大:
虽然最初的想法是与用户忠诚度有关,但一项调查发现这是由于用于不同操作系统的点击跟踪方法不同所致。跟踪点击的方式有多种,其保真度也不同(Kohavi,Messner等,2010),这导致了不同的损失率。在iOS和Windows Phone上,使用aredirect来跟踪单击,即,单击总是先上传到服务器,进行日志记录,然后重定向到目标。这种方法具有很高的保真度,但是用户体验较慢。在Android上,点击跟踪是通过使用网络信标指示点击完成的,然后将浏览器重定向到目标页面。这种方法对用户来说更快,但是会漏记录某些点击,比如网络出错的时候。这可以解释iOS和Android之间的点击率(CTR)差异,但是为什么Windows Phone的点击率如此之高?调查发现,在重定向的同时,还有一个错误,即用户的滑动被错误地记录为点击。所以,当看到异常数据时,请考虑一下Twyman的定律并调查问题。
干预方法对不同人群不同
在一个实验中,我们对用户界面进行了更改,导致不同浏览器的效果差异很大。对于几乎所有浏览器段,新的更改在几乎所有关键指标上均取得了小的积极改善,但对于Internet Explorer 7,关键指标却产生了很大的下降。与任何有力的影响(正面或负面)一样,这时应该援引特威曼法则并深入研究原因。一项调查显示,所使用的JavaScript与Internet Explorer 7不兼容,从而导致错误,这个错误而阻止了用户在某些情况下单击链接。只有在使用细分细分后(即查看不同细分的处理效果),才可能发现这种差异。
EGAP(2018)提供了有关异构效果(Heterogeneous Treatment Effect)的很好概述。可以使用机器学习和统计技术(例如决策树(Athey和Imbens2016)和随机森林(Wager和Athey 2018))来识别有趣的细分或搜索交互。 如果你可以提醒实验者注意有趣的细分,则可能会发现很多有趣的细分见解(但请记住要修改多个假设检验)。针对不同群里进行 A/B 测试是一个好主意, 有助于发现一些新的有趣的见解。 而这些往往在统一的 A/B 测试种无法发现。 这些基于细分的测试, 往往很有助于创新。
细分群体分析可能会带来的问题
当分析两个互斥的细分群体时,有可能看到二者的OEC均增加,但总体的OEC有所下降(总体只分为这两个互斥的群体),这与Simpson悖论(下一节中描述)不同,这是可能由于用户从一个细分市场迁移到另一个细分市场。
例如,假设有一个指标,即“每用户会话数”。你正在开发很少有用户使用的新产品功能F,因此你将重点放在F和 非F(不使用F的用户)的用户上。你会发现在在实验中,F用户的每用户会话数增加了; 而且, 非F组用户每用户会话数也增加了。你会庆祝吗?不!总数可能会减少或保持不变!
例如,使用F的用户平均每个用户会话为 20个,而不使用F的用户平均每个用户会话为10个。如果新功能使得 用户会话小于 15 的使用F的用户转移到不用F 用户,则使用F进行细分时,使用F的用户的每用户平均会话数将增加(因为低于平均值的用户都迁移走了),而对于 非F用户(我们为用户添加了平均每用户会话数更高的用户),但总数可能会变多, 变少或者不变。
当用户从一个细分移动到另一个细分时,基于细分群体的分析可能会产生错误,因此应使用汇总的“治疗效果”。理想情况下,细分群体划分应该在实验前完成, 并且在整个实验种不发送变化, 但是现实种这个条件很难满足。
辛普森悖论
以下基于Crook等(2009)。如果一个实验经过了多个阶段(请参阅第15章),即两个或两个以上的周期, 并且每个周期中治疗组和控制组的参试者百分比不同,则最后组合起来结果可能会错误地估计治疗效果。
假如,在第一个阶段, 干预组效果好于控制组; 第二阶段里, 干预组也好于控制组,但当两个阶段结果合并在一起时,总体结论可能时治疗组更糟。这种现象被称为辛普森悖论(Simpson's paradox)。 之所以称为悖论,是因为它违反人的常识(Simpson 1951,Malinas and Bigelow 2004,Wikipedia contributors,Simpson's paradox 2019,Pearl 2009)。
表3.1显示了一个简单的示例,该网站在两天内每天有100万访问者:星期五和周六。在星期五,实验以1%的流量分配给干预组。在星期六,该百分比提高到50%。即使“干预”的转换率在星期五(2.30%相对于2.02%)更好,在星期六,转换率也更好(1.2%对1.00%),如果仅将这两天的数据进行合并,看来治疗效果较差(1.20%对1.68%)。
上面的公式并没有出错, 在数学上, 有可能出现 而且, 但是 . 不直观的原因是我们正在处理加权平均数,而周六的转化率总体较差,这一天对平均干预效果的影响更大,因为它拥有更多的干预组用户。
下面是一些其他的关于辛普森悖论的场景:
- 用户被抽样。有些实验, 考虑到了使用不同浏览器的用户不同 (比如 Chrome, Firefox用户比较多), 为了让参试者具有代表性, 不同组分的用户数量也不同(基于不同浏览器使用人数比例划分)。 那么, 可能最后测量到, 整体结果是正面的, 但是每个细分用户组却都是负面影响。
- 实验是在多个国家/地区的网站上进行的。分配给干预组和治疗组的比例因国家/地区而异。如果将结果合并,则治疗似乎更好,而按国家对结果进行了细分分析以后,却发现治疗效果是负面的。
- 某个“控制/处理”的实验以50/50%的比例进行,但是最有价值的客户(例如支出最高的1%)在整个实验人群中也只占了%1。与上面的示例类似,该实验有可能总体上是积极的,但对于最有价值的客户和“价值较低”的客户而言,情况都会更糟。
- 在数据中心DC1中为客户完成了网站升级,从而提高了客户满意度。数据中心DC2中的客户已经完成了第二次升级,客户满意度也得到了提高。审核员查看升级中的合并数据可能会发现总体客户满意度下降。
尽管辛普森悖论并不直观,但并不少见。我们已经看到它们在真实实验中多次发生(Xu,Chen和Fernandez等人,2015; Kohavi和Longbotham,2010)。收集不同百分比的数据时,一定要小心。辛普森的逆转似乎暗示,从数学上讲,药物可以增加总体人口中恢复的概率,但可以降低每个亚人群中的恢复概率(因此这是有害的)。 对男性和女性来说, 这似乎意味着如果性别未知,就应该服用该药物; 而如果性别已知(男性或女性),则应避免使用该药物,这显然是荒谬的。Pearl(2009)表明,仅凭观察数据不能帮助我们解决这一悖论。 “事物确定原理”定理(6.1.1)指出,如果一项行动增加了每个子种群中事件E的概率,那么它也必须增加整个人口中E的概率。
鼓励建设性的质疑
自从我们在SumAll开始进行A / B协同测试以来,已经过去了六个月,但得出的结论却令人不安:大多数正面结果并未转化为更好的用户获取。如果有的话,我们要从其他角度看看…
− Peter Borden (2014)
对于组织而言,对实验结果的可信性的进行实验很难。因为这种实验涉及到一些未知因素, 而且如果实验结果不好的话, 可能会推翻既有结论。 而好的数据科学家总是喜欢质疑:他们观察异常情况,质疑结果; 当结果看起来太好时,他们就会引用特威曼定律。