为了检验一种教学干预是否有效,研究者通常将被试随机分配到实验组和控制组中,并分别测量被试在干预前后的分数。但在数据分析过程中,常出现分析过于复杂且统计功效低的情况。
一个随机的前测/后测对照组研究
假如你创立了一种自助学习外语阅读的新方法,并想检测该方法与当前正在使用的方法相比是否更加有效。为此,你按照下列步骤设计一个实验。
①你招募40名学生,将他们一半分配到控制组(传统方法),一般分配到实验组(新方法)。
②考虑到学生在外语阅读能力上预先存在的差异,你对所有学生进行一次前测。
③6周后,所有被试再接受一次测验。
这就是一个经典的随机前测/后测对照组实验,但你应该如何着手分析数据呢?
四种分析策略
总的来说,分析前测/后测实验有四种方法。仅对后测分数进行方差分析、重复测量方差分析、对前测/后测差异进行方差分析和协方差分析。前两种方法分别是统计功效偏低和过于复杂,而第三种方法所依赖的前提假设在真实数据中可能被违背。
ANOVA on the posttest scores:忽视前测分数,直接对后测分数进行方差分析或t检验。这种做法相当于只做了一个后测实验,而放弃了前测/后测设计所带来的优势。因为你已经把学生随机分配到各个组中,因此通常情况下你对新方法效应的估计是正确的。但是由于未考虑预先存在的个体差异,因此你估计的标准误比所需要的更大,从而导致统计功效降低。
Repeated-measures ANOVA:在分析中同时考虑前测/后测是一种更优越的方法。它通常是通过拟合一个2(控制组vs实验组)*2(前测vs后测)重复测量方差分析。该方法优于仅使用后测分数的方差分析,因为每个被试都充当自身的控制,降低了误差方差,因而提高了统计功效。但是正如 Huck & McLean (1975)指出的,此时使用RM-ANOVA是毫无必要的,因为其分析结果(处理的主效应、测验的主效应以及交互效应)中,只有交互效应是与研究问题相关的,其他两项结果提供的信息要么是无关的(处理的主效应),要么是不重要的(测验的主效应),必然导致错误的解释。总而言之,此时使用RM-ANOVA很可能对研究者和读者造成信息过载。
ANOVA on the gain scores:另一种更加直接和简便的方法是,先用后测分数减去前测分数,计算进步分数,然后对进步分数进行方差分析或t检验。此时与处理效应相关的p值等于RM-ANOVA中与交互效应相关的p值。当分析简单的前测/后测数据时,与一般的方差分析和简单的t检验相比,RM-ANOVA并不能提供更多的相关信息。
RM-ANOVA以及one-way ANOVAs on gain scores,都基于一个前提假设,但很大程度上被大家忽视。即前测和后测分数之间应该呈现斜率为1的线性相关。当前测后测使用不同的尺度时(前测用7点量表,后测用100点量表),该假设显然被违背了。此外,导致向均值回归的日常测量误差也会导致该假设的违背。
ANCOVA:Pretest scores as a covariate,我们可以将前测分数作为协变量带入模型中,与进行 RM-ANOVAs or gain score ANOVAs不同,我们不需要假定连接前测后测分数的斜率为1:我们可以从数据中估计斜率。一般而言,这将使得我们能够对处理效应做出更加准确的推断,但是以牺牲一个自由度为代价。那么在统计功效和一类错误率上,方差分析与协方差分析有哪些差异?
模拟研究
Type-I error rate:一类错误率仅仅只是一种统计学说法,意思是当不存在处理效应时,我们有多大可能发现一个显著的效应。传统上,我们能接受一个名义上为5%的一类错误率,这意味着即使实验处理与控制的效应相当,在重复1000次的长期试验中,我们依然能够有50次发现显著效应。
下图根据分析方法和测量误差,绘制已观察到的一类错误率。水平实线表示5%的一类错误率;虚线表示由于随机抽样导致错误率的变化幅度:如果真实的一类错误率为0.05,那么这些点在95%的情况下位于两条虚线之间。
就一类错误率而言,所有方法的表现都是相同的,它们之间的差异似乎都不是系统的,可能是由于抽样误差造成的。
Statistical power:统计功效指的是当处理效应真实存在时,你发现一个显著结果的几率。统计功效随着效应量和测量精度的增加而增加。
正如下图所示,与同时考虑了前测后测分数的分析相比,单纯的基于后测分数的方差分析表现较差。对于那些包含大量测量误差的数据集,ANCOVAs比 gain score ANOVAs表现地更好;但对于测量误差可以忽略不计的数据集,这两者表现差不多。
结论
①分析时尽量使用前测分数
②对于前后测实验,RM-ANOVA太过于花哨和复杂
③与后测分数的ANOVA和进步分数的ANOVA相比,ANCOVA 的统计功效更强一些
R code 见原文
我的直觉是 在小样本中,gain score ANOVAs优于ANCOVAs ,因为此时测量误差可以忽略不计(由于估计斜率参数时,损失了一个自由度)。即便如此,ANCOVAs 还有一个优势在于,它不需要在相同的尺度上进行前测后测。此外,它还可以通过增加一个高阶项来解释前测、后测分数之间的非线性关系。