如何正确分析前测/后测数据

Analysing pretest/posttest data

为了检验一种教学干预是否有效,研究者通常将被试随机分配到实验组和控制组中,并分别测量被试在干预前后的分数。但在数据分析过程中,常出现分析过于复杂且统计功效低的情况。

一个随机的前测/后测对照组研究

假如你创立了一种自助学习外语阅读的新方法,并想检测该方法与当前正在使用的方法相比是否更加有效。为此,你按照下列步骤设计一个实验。

①你招募40名学生,将他们一半分配到控制组(传统方法),一般分配到实验组(新方法)。

②考虑到学生在外语阅读能力上预先存在的差异,你对所有学生进行一次前测。

③6周后,所有被试再接受一次测验。

这就是一个经典的随机前测/后测对照组实验,但你应该如何着手分析数据呢?

四种分析策略

总的来说,分析前测/后测实验有四种方法。仅对后测分数进行方差分析、重复测量方差分析、对前测/后测差异进行方差分析和协方差分析。前两种方法分别是统计功效偏低和过于复杂,而第三种方法所依赖的前提假设在真实数据中可能被违背。


ANOVA on the posttest scores:忽视前测分数,直接对后测分数进行方差分析或t检验。这种做法相当于只做了一个后测实验,而放弃了前测/后测设计所带来的优势。因为你已经把学生随机分配到各个组中,因此通常情况下你对新方法效应的估计是正确的。但是由于未考虑预先存在的个体差异,因此你估计的标准误比所需要的更大,从而导致统计功效降低。

Repeated-measures ANOVA:在分析中同时考虑前测/后测是一种更优越的方法。它通常是通过拟合一个2(控制组vs实验组)*2(前测vs后测)重复测量方差分析。该方法优于仅使用后测分数的方差分析,因为每个被试都充当自身的控制,降低了误差方差,因而提高了统计功效。但是正如 Huck & McLean (1975)指出的,此时使用RM-ANOVA是毫无必要的,因为其分析结果(处理的主效应、测验的主效应以及交互效应)中,只有交互效应是与研究问题相关的,其他两项结果提供的信息要么是无关的(处理的主效应),要么是不重要的(测验的主效应),必然导致错误的解释。总而言之,此时使用RM-ANOVA很可能对研究者和读者造成信息过载。

ANOVA on the gain scores:另一种更加直接和简便的方法是,先用后测分数减去前测分数,计算进步分数,然后对进步分数进行方差分析或t检验。此时与处理效应相关的p值等于RM-ANOVA中与交互效应相关的p值。当分析简单的前测/后测数据时,与一般的方差分析和简单的t检验相比,RM-ANOVA并不能提供更多的相关信息。


RM-ANOVA以及one-way ANOVAs on gain scores,都基于一个前提假设,但很大程度上被大家忽视。即前测和后测分数之间应该呈现斜率为1的线性相关。当前测后测使用不同的尺度时(前测用7点量表,后测用100点量表),该假设显然被违背了。此外,导致向均值回归的日常测量误差也会导致该假设的违背。

 ANCOVA:Pretest scores as a covariate我们可以将前测分数作为协变量带入模型中,与进行 RM-ANOVAs or gain score ANOVAs不同,我们不需要假定连接前测后测分数的斜率为1:我们可以从数据中估计斜率。一般而言,这将使得我们能够对处理效应做出更加准确的推断,但是以牺牲一个自由度为代价。那么在统计功效和一类错误率上,方差分析与协方差分析有哪些差异?

模拟研究

Type-I error rate:一类错误率仅仅只是一种统计学说法,意思是当不存在处理效应时,我们有多大可能发现一个显著的效应。传统上,我们能接受一个名义上为5%的一类错误率,这意味着即使实验处理与控制的效应相当,在重复1000次的长期试验中,我们依然能够有50次发现显著效应。

下图根据分析方法和测量误差,绘制已观察到的一类错误率。水平实线表示5%的一类错误率;虚线表示由于随机抽样导致错误率的变化幅度:如果真实的一类错误率为0.05,那么这些点在95%的情况下位于两条虚线之间。

就一类错误率而言,所有方法的表现都是相同的,它们之间的差异似乎都不是系统的,可能是由于抽样误差造成的。

Statistical power:统计功效指的是当处理效应真实存在时,你发现一个显著结果的几率。统计功效随着效应量和测量精度的增加而增加。

正如下图所示,与同时考虑了前测后测分数的分析相比,单纯的基于后测分数的方差分析表现较差。对于那些包含大量测量误差的数据集,ANCOVAs比 gain score ANOVAs表现地更好;但对于测量误差可以忽略不计的数据集,这两者表现差不多。

结论

①分析时尽量使用前测分数

②对于前后测实验,RM-ANOVA太过于花哨和复杂

③与后测分数的ANOVA和进步分数的ANOVA相比,ANCOVA 的统计功效更强一些

R code 见原文

我的直觉是 在小样本中,gain score ANOVAs优于ANCOVAs ,因为此时测量误差可以忽略不计(由于估计斜率参数时,损失了一个自由度)。即便如此,ANCOVAs 还有一个优势在于,它不需要在相同的尺度上进行前测后测。此外,它还可以通过增加一个高阶项来解释前测、后测分数之间的非线性关系。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,752评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,100评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,244评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,099评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,210评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,307评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,346评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,133评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,546评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,849评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,019评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,702评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,331评论 3 319
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,030评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,260评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,871评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,898评论 2 351