针对一个三阶段的成组序贯设计,计划在受试者分别入组30%、60%时进行第一次、第二次期中分析,受试者全部入组随访完成后进行最终分析。显著性水平α设定为双侧0.05,检验效能β为0.2。通过SAS软件计算(采用O'Brien-Fleming类型的α消耗函数),得到累计α消耗如下表所示:

首先需要明确,SAS输出的是累计α消耗(Cumulative Alpha Spending)。根据alpha spending function的定义,各次分析时实际消耗的α计算如下:
          -         第一次期中分析消耗的α: 0.00004 * 2 = 0.00008
          -         第二次期中分析消耗的α: (0.00381 * 2) - (0.00004 * 2) = 0.00754
          -         最终分析消耗的α: (0.02500 * 2) - (0.00381 * 2) = 0.04238
       各次分析消耗的alpha分别为(0.00008, 0.00754, 0.04238)。此时,一个关键问题是:我们是否可以直接将(0.00008, 0.00754, 0.04238)作为判断标准,与每次分析所得的P值进行比较?
       这里就需要明确名义检验水平(nominal alpha)和 实际α消耗水平(actual alpha spending)的区别。
* 实际α消耗水平 (Actual Alpha Spending)
实际α消耗水平是指根据预先设定的α消耗函数计算得到的、每次分析时允许消耗的总体α的一部分。其统计学定义是,在H₀为真的条件下,到第k次分析时首次拒绝H₀的概率。
在成组序贯设计中,总体一类错误的定义为:
        P(任意一次分析时拒绝H₀ | H₀) = α,即:
        P(第一次分析时拒绝H₀)   +   P(第二次分析拒绝H₀ & 第一次分析不拒绝H₀) + ...  =α
那么每次分析时消耗的α为:
第一次分析实际消耗的α = P(第一次分析时拒绝H₀ | H₀) = 0.00008
第二次分析实际消耗的α = P(第一次分析未拒绝H₀ ∩ 第二次分析拒绝H₀ | H₀) = 0.00754
最终分析时实际消耗的α = PP(前两次分析均未拒绝H₀ ∩ 第三次分析拒绝H₀ | H₀)= 0.04238
这三部分之和严格等于预先定义的总的α水平(0.00008 + 0.00754 + 0.04238 = 0.05)。
* 名义检验水平(Nominal Alpha)
       名义检验水平(名义α)是我们在实际进行统计检验时,用于与P值直接比较的临界值。它是一个基于累计α消耗和统计量的联合分布反推出来的界值所对应的显著性水平。
       假设三次分析对应的检验统计量为Z₁, Z₂, Z₃,对应的临界界值分别为u₁, u₂, u₃。则有:
- 第一次分析时实际消耗的α = P(第一次期中分析时拒绝H0 | H0)
 
= P(|Z₁ | > u₁) = 0.00008 → 可反算出u₁
(想象一下定义一类错误为0.05之后,对应的标准正态分布上的界值即为1.96)
- 第二次分析时实际消耗的α = P(第一次分析未拒绝H₀ ∩ 第二次分析拒绝H₀ | H₀)
 
= P(|Z₁| ≤ u₁ ∩ |Z₂| > u₂) = 0.00754 → 在已知u₁的前提下,可反算出u₂
- 最终分析时实际消耗的α = P(最终分析时拒绝H₀ ∩ 前两次分析均不拒绝H₀ | H₀ ) = 0.04238
 
= P(|Z₁| ≤ u₁ ∩ |Z₂| ≤ u₂ ∩ |Z₃| > u₃) = 0.04238 → 在已知u₁和u₂的前提下,可反算出u₃
这些临界界值(u₁, u₂, u₃)可以转换为不同的尺度,SAS软件通常提供Z值、P值等尺度的输出,它们本质上是等价的,可以相互转换。
Z值尺度 (Z Scale) :
用于与统计量比较的临界Z值
P值尺度 (P-Value Scale) :
这才是分析时实际用于与P值比较的名义α水平。例如,第一次期中分析时,我们需将计算得到的P值与0.0000427(而不是0.00008)进行比较。:

总结:
- 实际α消耗是一个概率累加的概念,用于试验设计初期控制总Ⅰ类错误率。它回答的是“到这次分析为止,我们最多已经用了多少α”。
 - 名义α水平是一个临界值的概念,是进行统计推断时的判断尺度。它回答的是“这次分析,我的P值要小到什么程度才能拒绝H₀”。
 
我们根据预先定义的α消耗函数计算出每次分析时的累计α消耗水平,再计算出各次分析时实际消耗的α,之后通过联合概率分布推导出每次分析时使用的名义α水平。SAS等统计软件都可以给出各个尺度下的界值水平。