统计中的 Power (功率) 和 PowerAnalysis (功率分析)

Power

Power:可以正确拒绝零假设的概率,是一个0-1 的值。

在统计中, 我们常常遇到这样一类问题: 比较2组样本是否存在差异(来自于相同的总体)。比如:

  • 服用了实验药品的治疗组和服用安慰剂的对照组,是否存在差异(药品是否有效)?
  • 两个不同的商品展示页面, 是否对用户购买商品有不同的影响?

在做这类分析时,都要先确定一个 零假设, 零假设往往是意味着“没有变化”。 比如

  • 药品没有疗效。
  • 不同页面对用户没有影响。

实验的目的就要找出足够强的证据(p<0.05),推翻零假设。 如果不能推翻(p>0.05) 那么就只能承认零假设代表的含义了。

进行实验往往要耗费大量人力,物力, 所以所有实验都希望能够“找出潜在的差异”。 一般来说 ,样本数量越大,越容易找出差异。 但是收集样本是有代价的, 有时候代价还很高(比如临床实验), 所以就需要有一个工具, 能够指导实验设计人员判断出实验需要多少样本。 在该样本数下, 既可以一定概率找出差异, 也可以不浪费钱。 “一定概率” 指的就是 Power。

差异越大,Power 越高

如下图, 如果我们从两个总体中,各随机抽取3个样本进行分析。大概率说, 上图更容易分析出差异。

image.png
image.png

样本数量越多, 越容易找到差距

根据中心极限定理, 随着样本数量增加, 样本均值就越接近总体均值。 也就意味着随着样本数量增加, 我们获得样本均值越接近总体均值。 如果两个总体均值确实不同, 那么越接近总体均值, 两个样本均值之间的距离就越大。 如下图, 在样本数量为 1, 2 , 10 的时候, 样本均值随着样本数量逐渐变得集中。 于是,我们也就越可能找到差异(Power 越大)。

image.png

image.png

Power Analysis

上面讨论了 Power, 但都是直观的概念, 用在实践中, 必须要有可以量化的工具, 可以计算出具体数值。 Power Analysis 的功能就是计算在不同要求下, 到底需要多少样本的方法。

与功率相关的因素:

  • Effect Size : 衡量2个随机变量的相关强度的指标。 关于这个指标如何取,有很多方法,甚至有一些书专门讨论在不同场合下如何取值。 一个最简单的方法是两组样本均值差, 除以池化的标准差。 池化标准差 (pooled standard deviation)(两组样本方差均值的平方根)
  • 样本数量
  • 显著性(Significance): p-value 需要大于多少,该值越小,结果越可信, 但是需要的样本数量越高。
  • Power :推翻零假设(找到差异)的概率, 一般实验中取 0.8 (或者 0.9 )。

至于如何计算, 已经超出本文的讨论范围, 这里给出一个基于 T-test 的计算样本数量的方法。

计算实验需要样本多少 (Python)
# estimate sample size via power analysis
from statsmodels.stats.power import TTestIndPower
# parameters for power analysis
effect = 0.8
alpha = 0.05
power = 0.8
# perform power analysis
analysis = TTestIndPower()
result = analysis.solve_power(effect, power=power, nobs1=None, ratio=1.0, alpha=alpha)
print('Sample Size: %.3f' % result)
在不同 Effect Size 下, 样本数量与Power 的关系
image.png
  • 在同样样本数量的情况下, Effect Size 越大, power 越高。
  • 在同样的 Power 下, Effect Size 越大, 所需样本越少。

参考资料

  1. Statistical Power, Clearly Explained!!!
  2. Power Analysis, Clearly Explained!!!
  3. Power of a test
  4. INTRODUCTION TO POWER ANALYSIS
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,386评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,142评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,704评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,702评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,716评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,573评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,314评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,230评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,680评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,873评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,991评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,706评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,329评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,910评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,038评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,158评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,941评论 2 355

推荐阅读更多精彩内容