统计学:科学研究的瑞士军刀

研究表明,每个人平均每天要问 20 个问题!当然,这其中的很多问题都比较简单,但也有很多复杂难解的问题,一时半会儿找不到答案。这时候,统计学就能派上用场了!统计学能够让我们从一组数据之中提炼出结论,因而被称为“数据的科学”。统计学还能帮助各行各业的人们,并应用在主题研究、商业分析、结果预测等诸多领域。对社会科学研究者(如心理学家)而言,统计学能帮助分析数据、回答科学研究问题。

MATH · STATISTICS

科学家常常会提出各种各样的问题,这些问题有许多可以用统计学来解答。比如,一名心理学研究者可以通过统计,来研究考前睡眠情况对学生的考试成绩的影响。

为了解答特定问题,科研工作者往往会将一些满足特定条件的个体组合起来,形成一个总体(population)。比如,生物学研究者可以将一群鸟作为一个总体;发育学家可以将一群 3~6 岁的儿童作为一个总体;医学工作者可能会将有相同疾病的病人放入一个总体。根据研究问题和选取变量的不同,统计分析手法也有所区别。在统计学中,变量(variable)是指一个可定量或定性分析的因素、特征或条件,比如身高、年龄、温度。

群体的采样

大多数情况下,当我们提出问题时,我们很难对符合问题的总体中的每个成员进行分析。回到上面睡眠和成绩的问题,我们几乎不可能收集完全世界每个学生的睡眠和考试情况!所以,我们需要从全体学生中选出一部分代表性的学生(称为学生样本),这些抽出来的学生样本最好能代表全体情况,在各个研究特征上和全体学生的总特征基本相似。科学家在调查时,应首先确保他们的样本具有与整个群体相似的年龄、种族特征,如果做不到样本和总体的特征相似,我们就无从回答我们的科学问题,或者就算分析了也只能得到无效的结论。

举个无效的 🌰:一名兽医想计算所有狗的平均体重。她抽样选择了 5 只狗来称重,计算后得出,所有狗的平均体重在 4 ~ 7 kg 之间。如果你对狗比较了解,你就会开始怀疑这个数字:有些狗体型较大,平均体重应该更高才对啊?这兽医是不是只测了吉娃娃的样本啊?

如果这名兽医确实这么做了,那我们当然不能说所有的狗的体重都在 4 ~ 7 kg 之间,因为样本仅包含了一个品种,而不能代表所有品种的狗。如果这名兽医选择了能更好反应狗的总体特征的样本,那么她测得的平均体重就可能会大不相同。

随机抽样(Random sampling)是一种比较准确地反应总体情况的样本选择方法。科学家常常用随机抽样来确保总体中的每个个体有相同机会被抽到,且抽样样本的特征和总体一致。

图 1 - 随机抽样(Random sampling) 是一种比较准确地反应总体情况的样本选择方法。理论上,在随机抽样中,总体中的每个人都有相同机会被抽样。上图里,总体中的每种颜色都出现在抽样样本中,且每种颜色的比例也在抽样样本中保持一致。

从样本中估计总体

一旦科学家得到了合适的样本,他们就可以分析样本,归纳总结出结论后推广到总体。继续回到上面睡眠和考试的例子,科学家想要了解 12 岁儿童的平均睡眠时间(这是一个变量),可以从样本中计算出点估计值(point estimate)

统计学中,点估计值是对某个总体变量的真实值的估计值,一般这个值是总体的平均值。举个例子:如果我们想知道在芝加哥的平均每户儿童数量,我们可以随机生成一份芝加哥的家庭样本,了解他们家里有多少儿童;下一步,我们计算出这份随机样本中的平均每户儿童数量,并假定这里得到的平均值与整个芝加哥的平均每户儿童数量的真实值是接近的,这份随机样本所得到的平均值就是对于总体的一个点估计值。

图 2 - 与其走遍芝加哥、拜访每家每户,了解他们的儿童数量,不如随机取出一个样本,统计样本中的每户儿童数量,并将这个平均值推广到芝加哥总体的情况。这里计算出来的平均值就是一个点估计值。

既然我们没有使用整体的数据,那么我们的测量和抽样就不可能做到完美无缺。科学家常常使用置信区间(confidence intervals)来表示一个点估计值能够在多大程度上反映真实情况。

置信区间是一组围绕着点估计值的具体范围,大多数情况下,一个总体变量的真实值往往会落在这个范围之中。为了计算置信区间,科学家首先需要计算误差界限(margin of error),这个值用来衡量取样过程是靠谱还是离谱,样本是否能准确的反映总体的特征。

让我们来算一个置信区间吧!回到睡眠的例子,假定我们采集了 49 名学生的数据,他们的平均睡眠时间是 10.5 小时,这里的 10.5 小时就是一个点估计值。接下来我们需要算出标准差(standard deviation),也就是这组数据偏离平均值的程度。当标准差比较小的时候,这组数据更集中在平均值附近;而标准差非常大的时候,则说明这组数据离开平均值更远、更分散。这里我们假定标准差为 1.5 小时,我们就可以使用下面的公式来计算误差界限:

ME = \frac{1.96n}{\sqrt{s}}

这个公式中,s 代表了标准差(1.5h), n 则表示我们的数据量(49 名学生)。我们将具体的值代入公式,可以得到误差界限为 0.42 小时。然后我们将之前得到的平均值加上或减去这个误差界限,就得到一个范围。

科学家们常常使用 95% 的置信区间来计算误差界限,这里的 95% 就是指,在 95% 的情况下,置信区间都会包含真实的平均值。对于睡眠的例子,我们的置信区间为 10.5±0.42 小时,也就是 10.08 ~ 10.92 h,也就是说在 95% 的情况下,所有符合条件的学生的睡眠时间在 10.08 ~ 10.92 小时之间。

图 3 - 置信区间告诉我们可能包含真实值的范围,图中的例子表示,在我们的样本中平均睡眠时间为 10.5 小时,图中的竖杠展示了 95% 置信区间(±0.42 小时),也就是说在 95% 的情况下,所有符合条件的学生的睡眠时间在 10.08 ~ 10.92 小时之间。

那么,如何让误差界限更为准确呢?一种常见的方法就是扩大样本数量,这样我们抽样所得到的样本就更能反映整体的状况。另一种方法就是收集数据时尽可能降低误差,比如使用更加精确的测量、采集工具。当我们通过随机采样和更完善的数据收集方法,获得了更准确反应总体情况的样本时,误差界限就会更小、置信区间就会更加精细、对真实值的估计就会更加准确。

从数据中来,到数据中去

有时候,科学家不仅仅想描述一个简单群体的统计值,他们更想理解一个复杂系统的方方面面。

仍然用上面睡眠时间的例子,比起每个学生的平均睡眠时间,我们更想知道,在学生缺乏几个小时的睡眠以后,他们的考试成绩会下降多少。这时候我们可以用效应大小(effect size),它可以估计一个现象的影响范围,或者说一个变量对另一个变量的影响力度。

比如说,比起9小时睡眠的同学,考试前只睡3小时的同学,分数要比9小时同学低几分。低几分看起来是有差别,但不是一个很大的差别;但如果缺乏这6小时的睡眠,会让你考试成绩下降一大截,那么这种情况你可能就不再想要牺牲你的睡眠量了。

计算效应大小的方法有很多种,具体采用哪一种则取决于研究的问题和统计的方式。效应大小能够让科学家更好的评估他们的研究结果,理解变量之间的相互作用,以及每个变量对于群体的作用。

总结

科学家提出许多不同类型的问题,统计学可以通过多种方式回答这些问题,这里所展示的也只是冰山一角。但是,统计学并不限于任何特定领域,统计数据帮助科学家了解药物是否可能治愈疾病,并帮助工程师了解汽车的安全性。“没有什么统计学回答不了的问题~”

更多信息

原文:Sendef J and Robbins A (2019) How Scientists Use Statistics, Samples, and Probability to Answer Research Questions. Front. Young Minds. 7:118. doi: 10.3389/frym.2019.00118
作者:Jessica Sendef,美国迦太基学院的本科生,主修心理学和神经科学,学习大脑的工作原理、学习不同的方法来帮助他人;Arryn Robbins,迦太基学院实验心理学家和博士后研究员,研究人们如何找寻同种物体(视觉搜索)以及在这个过程中眼睛移动的方式。
翻译:小鱼

参考资料

[1] Cumming, G. 2013. Understanding the New Statistics: Effect Sizes, Confidence Intervals, and Meta-Analysis. New York, NY: Routledge.
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容