9. GSD- 名义检验水平和实际α消耗

针对一个三阶段的成组序贯设计，计划在受试者分别入组30%、60%时进行第一次、第二次期中分析，受试者全部入组随访完成后进行最终分析。显著性水平α设定为双侧0.05，检验效能β为0.2。通过SAS软件计算（采用O'Brien-Fleming类型的α消耗函数），得到累计α消耗如下表所示：

首先需要明确，SAS输出的是累计α消耗（Cumulative Alpha Spending）。根据alpha spending function的定义，各次分析时实际消耗的α计算如下：

          -    第一次期中分析消耗的α: 0.00004 * 2 = 0.00008
          -    第二次期中分析消耗的α: (0.00381 * 2) - (0.00004 * 2) = 0.00754
          -    最终分析消耗的α: (0.02500 * 2) - (0.00381 * 2) = 0.04238

各次分析消耗的alpha分别为(0.00008, 0.00754, 0.04238)。此时，一个关键问题是：我们是否可以直接将(0.00008, 0.00754, 0.04238)作为判断标准，与每次分析所得的P值进行比较？
这里就需要明确名义检验水平（nominal alpha）和实际α消耗水平（actual alpha spending）的区别。

* 实际α消耗水平（Actual Alpha Spending）

实际α消耗水平是指根据预先设定的α消耗函数计算得到的、每次分析时允许消耗的总体α的一部分。其统计学定义是，在H₀为真的条件下，到第k次分析时首次拒绝H₀的概率。

在成组序贯设计中，总体一类错误的定义为：
P(任意一次分析时拒绝H₀ | H₀) = α，即：
P(第一次分析时拒绝H₀) + P(第二次分析拒绝H₀ & 第一次分析不拒绝H₀) + ... =α

那么每次分析时消耗的α为：

第一次分析实际消耗的α = P(第一次分析时拒绝H₀ | H₀) = 0.00008
第二次分析实际消耗的α = P(第一次分析未拒绝H₀ ∩ 第二次分析拒绝H₀ | H₀) = 0.00754
最终分析时实际消耗的α = PP(前两次分析均未拒绝H₀ ∩ 第三次分析拒绝H₀ | H₀)= 0.04238

这三部分之和严格等于预先定义的总的α水平（0.00008 + 0.00754 + 0.04238 = 0.05）。

* 名义检验水平(Nominal Alpha)

名义检验水平（名义α）是我们在实际进行统计检验时，用于与P值直接比较的临界值。它是一个基于累计α消耗和统计量的联合分布反推出来的界值所对应的显著性水平。
假设三次分析对应的检验统计量为Z₁, Z₂, Z₃，对应的临界界值分别为u₁, u₂, u₃。则有：

第一次分析时实际消耗的α = P(第一次期中分析时拒绝H0 | H0)
= P(|Z₁ | > u₁) = 0.00008 → 可反算出u₁
（想象一下定义一类错误为0.05之后，对应的标准正态分布上的界值即为1.96）

第二次分析时实际消耗的α = P(第一次分析未拒绝H₀ ∩ 第二次分析拒绝H₀ | H₀)
= P(|Z₁| ≤ u₁ ∩ |Z₂| > u₂) = 0.00754 → 在已知u₁的前提下，可反算出u₂

最终分析时实际消耗的α = P(最终分析时拒绝H₀ ∩ 前两次分析均不拒绝H₀ | H₀ ) = 0.04238
= P(|Z₁| ≤ u₁ ∩ |Z₂| ≤ u₂ ∩ |Z₃| > u₃) = 0.04238 → 在已知u₁和u₂的前提下，可反算出u₃

这些临界界值（u₁, u₂, u₃）可以转换为不同的尺度，SAS软件通常提供Z值、P值等尺度的输出，它们本质上是等价的，可以相互转换。

Z值尺度 (Z Scale) ：

用于与统计量比较的临界Z值

P值尺度 (P-Value Scale) ：

这才是分析时实际用于与P值比较的名义α水平。例如，第一次期中分析时，我们需将计算得到的P值与0.0000427（而不是0.00008）进行比较。：

总结：

实际α消耗是一个概率累加的概念，用于试验设计初期控制总Ⅰ类错误率。它回答的是“到这次分析为止，我们最多已经用了多少α”。
名义α水平是一个临界值的概念，是进行统计推断时的判断尺度。它回答的是“这次分析，我的P值要小到什么程度才能拒绝H₀”。

我们根据预先定义的α消耗函数计算出每次分析时的累计α消耗水平，再计算出各次分析时实际消耗的α，之后通过联合概率分布推导出每次分析时使用的名义α水平。SAS等统计软件都可以给出各个尺度下的界值水平。