如何正确分析前测/后测数据

Analysing pretest/posttest data

为了检验一种教学干预是否有效，研究者通常将被试随机分配到实验组和控制组中，并分别测量被试在干预前后的分数。但在数据分析过程中，常出现分析过于复杂且统计功效低的情况。

一个随机的前测/后测对照组研究

假如你创立了一种自助学习外语阅读的新方法，并想检测该方法与当前正在使用的方法相比是否更加有效。为此，你按照下列步骤设计一个实验。

①你招募40名学生，将他们一半分配到控制组（传统方法），一般分配到实验组（新方法）。

②考虑到学生在外语阅读能力上预先存在的差异，你对所有学生进行一次前测。

③6周后，所有被试再接受一次测验。

这就是一个经典的随机前测/后测对照组实验，但你应该如何着手分析数据呢？

四种分析策略

总的来说，分析前测/后测实验有四种方法。仅对后测分数进行方差分析、重复测量方差分析、对前测/后测差异进行方差分析和协方差分析。前两种方法分别是统计功效偏低和过于复杂，而第三种方法所依赖的前提假设在真实数据中可能被违背。

ANOVA on the posttest scores：忽视前测分数，直接对后测分数进行方差分析或t检验。这种做法相当于只做了一个后测实验，而放弃了前测/后测设计所带来的优势。因为你已经把学生随机分配到各个组中，因此通常情况下你对新方法效应的估计是正确的。但是由于未考虑预先存在的个体差异，因此你估计的标准误比所需要的更大，从而导致统计功效降低。

Repeated-measures ANOVA：在分析中同时考虑前测/后测是一种更优越的方法。它通常是通过拟合一个2（控制组vs实验组）*2（前测vs后测）重复测量方差分析。该方法优于仅使用后测分数的方差分析，因为每个被试都充当自身的控制，降低了误差方差，因而提高了统计功效。但是正如 Huck & McLean (1975)指出的，此时使用RM-ANOVA是毫无必要的，因为其分析结果（处理的主效应、测验的主效应以及交互效应）中，只有交互效应是与研究问题相关的，其他两项结果提供的信息要么是无关的（处理的主效应），要么是不重要的（测验的主效应），必然导致错误的解释。总而言之，此时使用RM-ANOVA很可能对研究者和读者造成信息过载。

ANOVA on the gain scores：另一种更加直接和简便的方法是，先用后测分数减去前测分数，计算进步分数，然后对进步分数进行方差分析或t检验。此时与处理效应相关的p值等于RM-ANOVA中与交互效应相关的p值。当分析简单的前测/后测数据时，与一般的方差分析和简单的t检验相比，RM-ANOVA并不能提供更多的相关信息。

RM-ANOVA以及one-way ANOVAs on gain scores，都基于一个前提假设，但很大程度上被大家忽视。即前测和后测分数之间应该呈现斜率为1的线性相关。当前测后测使用不同的尺度时（前测用7点量表，后测用100点量表），该假设显然被违背了。此外，导致向均值回归的日常测量误差也会导致该假设的违背。

ANCOVA：Pretest scores as a covariate，我们可以将前测分数作为协变量带入模型中，与进行 RM-ANOVAs or gain score ANOVAs不同，我们不需要假定连接前测后测分数的斜率为1：我们可以从数据中估计斜率。一般而言，这将使得我们能够对处理效应做出更加准确的推断，但是以牺牲一个自由度为代价。那么在统计功效和一类错误率上，方差分析与协方差分析有哪些差异？

模拟研究

Type-I error rate：一类错误率仅仅只是一种统计学说法，意思是当不存在处理效应时，我们有多大可能发现一个显著的效应。传统上，我们能接受一个名义上为5%的一类错误率，这意味着即使实验处理与控制的效应相当，在重复1000次的长期试验中，我们依然能够有50次发现显著效应。

下图根据分析方法和测量误差，绘制已观察到的一类错误率。水平实线表示5%的一类错误率；虚线表示由于随机抽样导致错误率的变化幅度：如果真实的一类错误率为0.05，那么这些点在95%的情况下位于两条虚线之间。

就一类错误率而言，所有方法的表现都是相同的，它们之间的差异似乎都不是系统的，可能是由于抽样误差造成的。

Statistical power：统计功效指的是当处理效应真实存在时，你发现一个显著结果的几率。统计功效随着效应量和测量精度的增加而增加。

正如下图所示，与同时考虑了前测后测分数的分析相比，单纯的基于后测分数的方差分析表现较差。对于那些包含大量测量误差的数据集，ANCOVAs比 gain score ANOVAs表现地更好；但对于测量误差可以忽略不计的数据集，这两者表现差不多。

结论

①分析时尽量使用前测分数

②对于前后测实验，RM-ANOVA太过于花哨和复杂

③与后测分数的ANOVA和进步分数的ANOVA相比，ANCOVA 的统计功效更强一些

R code 见原文

我的直觉是在小样本中，gain score ANOVAs优于ANCOVAs ，因为此时测量误差可以忽略不计（由于估计斜率参数时，损失了一个自由度）。即便如此，ANCOVAs 还有一个优势在于，它不需要在相同的尺度上进行前测后测。此外，它还可以通过增加一个高阶项来解释前测、后测分数之间的非线性关系。