首先我们使用的是R包pwr,我们看下下面这段文字,还是挺重要的,因为它包含了这个包的所有语言。
This package contains functions for basic power calculations using effect sizes and notations fromCohen (1988) : pwr.p.test: test for one proportion (ES=h) pwr.2p.test: test for two proportions
(ES=h) pwr.2p2n.test: test for two proportions (ES=h, unequal sample sizes) pwr.t.test: one sample
and two samples (equal sizes) t tests for means (ES=d) pwr.t2n.test: two samples (different sizes) t
test for means (ES=d) pwr.anova.test: test for one-way balanced anova (ES=f) pwr.r.test: correlation
test (ES=r) pwr.chisq.test: chi-squared test (ES=w) pwr.f2.test: test for the general linear model
(ES=f2) ES.h: computing effect size h for proportions tests ES.w1: computing effect size w for
the goodness of fit chi-squared test ES.w2: computing effect size w for the association chi-squared
test cohen.ES: computing effect sizes for all the previous tests corresponding to conventional effect
sizes (small, medium, large)
我们再看下使用体会,一般我们会拿到回顾性研究数据,比如用药组和非用药组对肝功能的影响,通过统计我们能得到两组的均值和标准差,假设α=0.05。当然,在回顾性研究数据中,我们知道样本量是多少,所以我们可以计算power。
回顾性研究中power分析的用途:
评估研究的统计检验力:了解现有样本量是否足够检测到预期的效应。
解释研究结果:如果结果不显著,低power可能是一个原因。
为未来研究提供参考:如果power较低,可以为将来的前瞻性研究提供样本量估计的依据。
正确的步骤:
a. 计算效应量(从现有数据)
b. 使用已知的样本量、效应量和显著性水平计算power
c. 解释得到的power值
如果power不理想:
不能回过头去增加样本量(因为这是回顾性研究)
可以讨论研究的局限性
可以建议在未来的研究中增加样本量
library(pwr)
# 用药组和非药物组的均值
mean1 <- m1
mean2 <- m2
# 假设标准差
sd1 <- sd(用药组)
sd2 <- sd(非用药组)
alpha <- 0.05
#power <- 0.8
# 计算效果大小 d
pooled_sd <- sqrt((sd1^2 + sd2^2) / 2)
d <- (mean1 - mean2) / pooled_sd
# 计算power
pwr.t.test(d = d, sig.level = alpha, n=n, type = "two.sample")
在前瞻性研究中,我们需要计算样本量,这时,我们认定检验力为0.8(power=1-β)一般这样取值,但是不是固定的,Power和二类错误的关系:
Power(检验力)= 1 - β
β 是二类错误的概率
当Power设定为0.8时:
0.8 = 1 - β
β = 1 - 0.8 = 0.2
所以,您是对的,当power设定为0.8时,二类错误(β)确实是0.2。
这意味着:
有80%的概率正确地拒绝虚无假设(当备选假设为真时)
有20%的概率错误地接受虚无假设(当备选假设为真时,即犯二类错误)
为什么选择0.8作为常用的power值:
这是一个平衡点,在检测真实效应和控制成本之间取得平衡。
增加power(如到0.9)会显著增加所需的样本量,从而增加研究成本。
0.8的power被认为足够检测到大多数重要的效应。
需要注意的是:
在某些情况下(如医学研究),可能需要更高的power,以减少遗漏重要发现的风险。
power的选择还应考虑研究的具体情况,如预期效应大小、可用资源等。
前瞻性研究
评估样本量是研究设计中的一个关键步骤。让我为您详细解释如何进行样本量评估:
确定研究类型:
对于均值比较(如t检验)
对于比例比较(如卡方检验)
对于相关性研究
对于回归分析等
确定关键参数:
预期效应量(Effect size)
所需的统计检验力(通常为0.80)
显著性水平(通常为0.05)
研究设计(单尾或双尾检验、配对或独立样本等)
使用样本量计算公式或软件:
常用软件:G*Power, R (pwr包), PASS, nQuery
在线计算器也可用于简单设计
考虑实际因素:
预期的损失随访率
亚组分析的需求
多重比较的调整
具体步骤(以t检验为例): a. 估计效应量:
可以基于先前研究
或进行小规模的预实验
b. 在R中使用pwr包:
library(pwr)
pwr.t.test(d = 0.5, power = 0.80, sig.level = 0.05, type = "two.sample", alternative = "two.sided")
这里,d = 0.5 是中等效应量,是可以通过回顾性研究计算的。
c. 解释结果:
输出会给出每组所需的样本量
调整样本量:
如果预期有20%的损失随访,将计算得到的样本量除以0.8
考虑可行性:
评估招募所需样本量的难度
考虑时间和预算限制
敏感性分析:
尝试不同的效应量和power值
了解这些变化如何影响所需样本量
特殊情况:
对于非参数检验,可能需要稍大的样本量
对于复杂的研究设计(如多因素ANOVA),可能需要更专门的计算方法
记住,样本量计算是一个平衡艺术,需要在统计能力、研究可行性和资源限制之间找到平衡点。