Silly significance tests: Tautological tests
上一篇博文已经论证:使用显著性检验去核查随机分配是否有效是毫无意义的。在本篇博文,我们在讨论另一种愚蠢的显著性检验:dividing participants into a ‘high X’ and a ‘low X’ group and then testing whether the groups differ with respect to ‘X’。
什么是“tautological tests”
我们经常会在研究论文中看到下面的表述:
根据70名被试在20分的法语测验上的成绩,分为3个水平组。高水平组包含16或更高分数的被试(n=20);中等水平组为那些分数在10-15之间的被试(n=37);低水平组为9分及9以下的被试(n=13)。经ANOVA表明,三组之间的测验得分存在显著差异 (F(2, 67) = 133.5, p < 0.001)。
这是一个虚构的例子,但在应用语言学中上述程序比较常见:研究人员对被试进行分组,使得在某个变量上各组之间没有重叠(如任务表现、年龄),然后继续通过证明组间在该变量上存在显著差异来表明这种分组是合理的。这种做法并不一定是针对被试,有时研究者对刺激的选择(如:高频词vs 低频词)也遵循类似的逻辑。由于目前找不到更好的术语,姑且先称这种实践为重复显著性检验。
存在的问题
正如其名,tautological tests之所以是愚蠢的,是因为他们不能告诉我们任何既正确又新鲜的信息。因为是我们自己创建了在某个变量上未重叠的被试或刺激分组,因而我们显然知道各组之间必定在该变量上存在差异。如果显著性检验未见有显著的p值,那么这更多告诉我们的是sample size的信息,而不是关于该变量上的组间差异的信息。
这种non-informativeness tautological tests与之前讨论的 balance tests有一些相似之处。在balance tests例子中,我们对一个不存在的差异进行检验(我们知道它并不存在);当使用tautological tests时,我们对一个已知的差异进行检验。个人认为, tautological tests并不会对研究结果造成负面影响,但它使用无用的信息将研究报告弄得乱七八糟,并常常让人望而生畏。
更严重的问题:过度使用ANOVA
更严重的问题发生在 tautological significance tests之前:将一个连续变量离散化。将一个连续变量划分成不同组,会丢失一些有价值的信息。因此,与你在分析中使用原始变量相比,这会导致统计功效的降低。此外,分割点的选择是任意的,选择不同的分割点也会造成结果上的差异。
研究者似乎普遍认为,为了明智地分析数据,他们需要进行分组。其潜在观点可能是分组比较(i.e. ANOVAs)比涉及连续变量的分析(e.g. linear regression)更正式和客观。或者研究人员可能认为,在处理更加复杂数据时,如具有交叉依赖结构的数据(e.g. featuring both stimulus- and participant-related variables)或者数据呈现非线性,必需使用ANOVAs。想要消除这些错误观点的研究人员可以阅读 Harald Baayen 的一篇文章以及2008 special issue of the Journal of Memory and Language上的一些文章 (e.g. the Baayen et al. and Jaeger papers)。如果你的数据显示非线性,而你希望通过将一个连续变量离散化进行解决时,我建议你首先看看 Michael Clark对 generalised additive models的介绍,它可以解决非线性问题,或者你也可以尝试转换变量是否有可能使它们之间的关系近似线性。
解决办法
解决 tautological tests的方法也是非常简单。首先,我们应该扪心自问,真的有必要对连续变量进行分类吗?通常一个基于回归的分析是可行的。第二,如果出于某些原因不能执行回归分析,只需记住不要进行这种tautological tests。
A related kind of test use
一个相关的,我们正在使用的显著性检验是,当研究者试图确保刺激或被试在不同条件下是可比的时候。例如,当调查词频对单词记忆的影响时,研究者常常希望确保高频词和低频词在除了词频外的其他属性上保持相似(如,单词长度)。尽管我不会将这种显著性检验称为愚蠢的,但它也不是最理想的做法。 Imai et al. 讨论了使用显著性检验去评估一个匹配程序是否成功,并反对这种做法。关于这个问题在后期会进一步讨论。而当前的关键信息非常简单:显著性检验不适合这种目的。