Netflix是如何做决策的? | 4. A/B测试结果之假阴性和统计功效

这是Netflix关于实验和决策的系列文章，系统介绍了实验对于Netflix的重要性，实验的最主要工具--A/B测试，数据科学和文化在实验与决策过程中的重要性等。整个系列共七篇文章，这是第四篇。原文：Interpreting A/B test results: false negatives and power^[1]

这是关于Netflix如何基于A/B测试来做出决策并不断创新产品的系列文章的第四篇。想看前面的文章？参见第一部分(Netflix的决策制定)，第二部分(什么是A/B测试?)，第三部分(假阳性和统计显著性)。接下来的文章将详细介绍Netflix的实验，Netflix是如何投资基础设施来支持和扩大实验的，以及Netflix的实验文化的重要性。

在第3部分:假阳性和统计显著性中，我们定义了在解释测试结果时可能发生的两种类型的错误：假阳性和假阴性。然后，基于投硬币的简单思维练习，围绕假阳性和相关概念（如统计显著性、p值和置信区间）建立直观感受。在这篇文章中，我们将对假阴性和统计功率的相关概念做同样的处理。

图1:和第3部分一样，我们将基于抛硬币的思维练习，以建立关于核心统计概念的直观感受

假阴性和功效（False negatives and power）

当数据显示测试组和对照组之间没有显著差异时，但事实上两者确实存在差异，就会出现假阴性。继续第三部分的例子，假阴性对应的是把猫的照片标记为“不是猫”。假阴性与统计功效^[2]的概念密切相关，给出了在给定实验设计和特定规模的真实效应的情况下，真阳性的概率。事实上，功效就是1减去假阴性的概率。

功效涉及到在给定实际状态的特定假设下考虑可能的结果——类似于在第三部分中，我们如何通过首先做出零假设为真来定义显著性。为了建立关于功效的直觉，我们回到第3部分中相同的硬币例子，在这个例子中，目标是通过计算100次投掷中正面的比例的实验来判断硬币是否均匀。在零假设（即硬币是均匀的）下，结果的分布如图2中黑色所示。为了使图表更容易解释，我们对直方图的顶部进行了平滑处理。

在这个实验中，如果硬币不均匀会发生什么？为了让这个思维练习更具体，看看当我们有一枚硬币，正面出现的概率平均为64%时，会发生什么（后面会解释为什么选择这个特殊数字）。因为实验中存在不确定性或噪声，不可能在100次投掷中正好出现64次正面。但和零假设一样，硬币是均匀的，可以计算出所有可能的结果（如果这个备择假设是真的的话）。这种分布如图2中的红色曲线所示。

图2:用抛硬币100次并计算正面的比例的例子来说明功效。黑色虚线和红色虚线分别表示假设出现正面概率为50%(零假设)和64%(备择假设的特定值)的结果分布。在这里，对抗这个选择的功效是80%(红色阴影)。

从视觉上看，功效是这个可选分布(红色)超出零假设下的临界值（蓝线和黑曲线，请参阅第3部分）。在这里，80%的替代分布(红色)落在更高的蓝线的右边，这条蓝线划定了上拒绝区域的临界值。假设硬币正面的概率是64%，那么这个测试的功效是80%。完整地说，还有一小部分可忽略的替代分布(红色)位于较低的拒绝区域(在短蓝线的左边)。

测试的功效对应于一个特定的、假设的效应大小。在我们的例子中，如果那枚非均匀硬币的正面概率是64%，这个测试有80%的能力来检测一枚硬币是不是非均匀的。解释如下：如果正面硬币的概率等于64%，我们反复做100次实验，并且在5%的显著性水平上做出决定，然后每5次实验中有4次我们都可以正确的拒绝硬币是均匀的这一零假设。20%的重复实验结果是假阴性，意思就是即使硬币是非均匀的，我们也不会拒绝零假设（硬币是均匀的）。

增加功效的方法（Ways to increase power）

在设计A/B测试时，我们首先确定显著性水平（惯例是5%：如果测试组和对照组之间没有差异，将有5%的概率发生假阳性），然后设计控制假阴性的实验。可以通过三个主要的杠杆来增加功效，降低假阴性的概率：

影响大小（Effect size）。简单地说，效应越大（即A组和B组之间度量值的差异越大），我们能够正确检测到差异的概率就越高。为了建立直观感受，假设进行实验来收集硬币100次投掷中正面的比例，来确定硬币是否均匀。考虑两种情况，在第一种情况中，正面的真实概率是55%，而在第二种情况中，正面的真实概率是75%。从直观上（以及数学上!），我们的实验更有可能在第二种情况下认定硬币是不均匀的。正面出现的真实概率离零值50%远得多，所以实验产生的结果更有可能落在拒绝区域。在产品开发环境中，我们可以通过大胆的对比所测试的假设来增加度量变化的预期幅度。另一种增加效果的策略是在产品的新领域进行测试，在那里可能有更大的空间来提高会员满意度。也就是说，通过实验学习的乐趣之一就是惊喜元素：有时候，看似很小的变化可能会对顶级指标产生重大影响。
样本大小（Sample size）。实验单元（样本、数据）越多，功效越大，越容易正确识别较小的影响。为了建立直观感受，再考虑一下进行一个实验来确定一枚硬币是否为非均匀硬币，我们收集的数据是在固定次数的投掷中正面的比例，而正面的真实概率是64%。考虑两种情况：第一种情况，抛硬币20次，第二种情况，抛硬币100次。从直观上（以及数学上!），实验更有可能在第二种情况下认定硬币是不均匀的。随着数据增加，实验结果将更接近真实的64%正面的概率，而均匀硬币假设下的结果集中在0.50左右，导致拒绝区域覆盖了50%的值。这些效应结合在一起，随着数据的增加，非均匀硬币的实验结果落在拒绝区域的概率就更大，从而产生真正的阳性。在产品开发的背景下，我们可以增加或者减少测试组（或者其他单位）的数量从而影响功效，在测试样本的数量以及可并行进行的非重复测试数量之间需要做出一定的权衡。
在潜在人群中度量的可变性（The variability of the metric in the underlying population）。我们所测试的人群的度量标准越一致，就越容易正确识别出真正的影响。这个直观感受有点复杂，没办法用简单的硬币例子了。假设在Netflix，我们运行了一个旨在减少延迟（例如会员按下播放键和视频播放开始之间的延迟）的测试，考虑到人们用来访问Netflix的各种设备和互联网连接，我们的用户在这个指标上有很多自然的变化。因此，如果测试处理导致了延迟度量的小幅降低，则很难成功识别，有可能来自成员间可变性的“噪音”淹没了小信号。相比之下，如果我们对一组使用类似设备、网络连接相似的成员进行测试，那么小信号更容易识别，因为可能淹没信号的噪音更少。我们花了很多时间在Netflix上建立统计分析模型，从而可以利用这种直觉，并通过有效降低可变性来增强功能^[3]。

为合理和有意义的效果提供功效（Powering for reasonable and meaningful effects）

功效和假阴性率是一个假设效应大小的函数。就像5%的误报率是一个被广泛接受的惯例一样，功效的经验法则是，为了一个合理和有意义的效应大小，目标是80%的功效（我们将在下面逐一讨论）。也就是说，我们假设一个效应大小，然后设计实验，主要是通过设置样本量，这样，如果测试真正会影响我们的假设，正确识别出影响的概率是80%。在20%的情况下，测试的结果会是假阴性：事实上有效果，但从测试中观察到的结果并不在拒绝区域，我们无法得出结论。这就是为什么上面的例子中正面的概率是64%：投掷100次的实验有80%的功效。

由于测试结果可能会让人很吃惊，因此很难说什么才是合理的效应大小。但是，领域知识和常识的结合通常可以提供可靠的估计。在测试一个持续时间很长的领域（比如优化推荐系统），帮助Netflix成员选择对他们有利的内容，我们对测试产生的效果应该有一个可靠的想法（无论是积极的还是消极的）。在了解了过去的效应大小以及分析策略后，可以设置样本大小，以确保测试对于合理的度量具有80%的功效。

在实验的设计阶段以及决定往哪里投入精力时，第二个需要考虑的问题是，确定哪些因素对用来决定测试的主要指标构成有意义的影响。什么有意义将取决于实验的影响范围（成员满意度、回放延迟、后端系统的技术性能等），以及与新产品体验相关的潜在效果或成本。假设，对于效果小于主要度量指标0.1%的变化，支持新产品特性的成本要大于收益。在这种情况下，推动测试去检测指标中0.01%的变化就没有什么意义了，因为成功识别出这种规模的影响并不会导致决策发生有意义的变化。同样，如果在一个特定的创新领域的测试中所看到的效果大小对用户体验或业务始终是无关紧要的，这表明实验资源可以部署在其他更有效的地方。

总结

本系列的第3部分和第4部分着重于定义和构建用于分析测试结果的核心概念的直观感受：假阳性和假阴性、统计显著性、p值和功效。

关于实验的一个令人不安的事实是，我们不能同时最小化假阳性和假阴性。事实上，必须在假阳性和假阴性之间做出权衡。如果我们使用更严格的假阳性率，比如0.01%，会减少假阳性的可能性，但也降低了测试的功效，从而增加了这些测试的假阴性率。使用5%的假阳性率和80%的功效目标是在限制假阳性和实现真正发现之间取得平衡的公认惯例。然而，在假阳性（或假阴性）带来更大风险的情况下，研究人员可能会偏离这些经验法则，从而最小化某一种类型的不确定性。

我们的目标不是消除不确定性，而是理解和量化不确定性，以便做出合理的决策。在许多情况下，A/B测试的结果需要细致的解释，事实上，测试结果本身只是业务决策的一个输入。在下一篇文章中，我们将讨论如何使用测试结果建立决策的信心。

References:
[1] Interpreting A/B test results: false negatives and power: https://netflixtechblog.com/interpreting-a-b-test-results-false-negatives-and-power-6943995cf3a8
[2] Power of a test: https://en.wikipedia.org/wiki/Power_of_a_test
[3] Efficient Computation of Linear Model Treatment Effects in an Experimentation Platform: https://arxiv.org/pdf/1910.01305.pdf

你好，我是俞凡，在Motorola做过研发，现在在Mavenir做技术工作，对通信、网络、后端架构、云原生、DevOps、CICD、区块链、AI等技术始终保持着浓厚的兴趣，平时喜欢阅读、思考，相信持续学习、终身成长，欢迎一起交流学习。
微信公众号：DeepNoMind

最后编辑于：2022.03.06 19:27:23

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 218,546评论 6赞 507
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,224评论 3赞 395
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 164,911评论 0赞 354
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,737评论 1赞 294
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,753评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,598评论 1赞 305
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,338评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,249评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,696评论 1赞 314
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,888评论 3赞 336
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,013评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,731评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,348评论 3赞 330
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,929评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,048评论 1赞 270
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,203评论 3赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,960评论 2赞 355

Netflix是如何做决策的? | 4. A/B测试结果之假阴性和统计功效

推荐阅读更多精彩内容