t分布与t检验

1. t分布与正态分布

t 分布描述当总体标准差未知且观测值来自正态分布的总体时,样本均值与总体均值的标准化距离。

t 分布与正态分布相似。它有精准的数学定义。这里不深入探讨复杂的数学,而是了解t 分布的有用属性,以及为什么它在分析中很重要。

和正态分布一样,t 分布有平滑的形状。
和正态分布一样,t 分布是对称的。如果在均值处将其对折,两侧是相同的。
和标准正态分布(或 z 分布)一样,
t
分布的均值是 0。
正态分布假设总体标准差是已知的。t 分布不做这种假设。
t 分布是通过自由度定义的。这些与样本量大小相关。
t 分布在样本量较小或总体标准差未知,以及两者同时满足时最有用。
随着样本量大小增加,t 分布会变得与正态分布更加相似。

请参考下面这个图形,它将 3 种 t 分布与标准正态分布进行比较:

3 种t分布与标准正态 (z) 分布

所有分布都有平滑的形状。所有分布都是对称的。所有分布的均值都是 0。

t分布的形状取决于自由度。具有较高自由度的曲线较高,并且尾部较细。与z分布相比,3 种t分布都有“更重的尾部”。

可以看到,具有较高自由度的曲线是如何更接近 z 分布的。将具有 1 个自由度的粉色曲线与代表 z 分布的绿色曲线进行比较。与 z 分布相比,具有 1 个自由度的 t 分布较短,并且尾部较粗。然后将具有 10 个自由度的蓝色曲线与代表 z 分布的绿色曲线进行比较。这两种分布非常相似。

一个常用的经验方法是,在样本大小至少等于 30 的情况下,可以使用 z 分布来代替t分布。下图图 2 显示了具有 30 个自由度的t分布和 z 分布。该图使用绿色虚线来代表 z,因此可以同时看到两条曲线。正是因为存在这种相似性,所以当样本量大小足够大时,在统计方法中将使用 z 分布来代替 t 分布。

z 分布与具有 30 个自由度的t分布

关于 z 分布与 t 分布可以参考下方文章:

[如何理解Z检验和T检验?]https://zhuanlan.zhihu.com/p/49468324

2.关于假设检验

当开展 t 检验时,想要确认的是,与来自 t 分布的期望值相比,检验统计量是否具有更极端的值。

对于双尾检验,要观察分布的两个尾部。下图显示了双尾检验的决策过程。该曲线是具有 21 个自由度的 t 分布。来自 α = 0.05/2 = 0.025 的 t 分布的值是 2.080。对于双尾检验,如果检验统计量大于参考值的绝对值,将拒绝原假设。如果检验统计量的值落在尾部的下方或上方,将拒绝原假设。如果检验统计量在两条参考线之内,将无法拒绝原假设。

双尾检验的决策过程

对于单尾检验,只需观察分布的一个尾部。例如,下图显示了单尾检验的决策过程。该曲线也是具有 21 个自由度的 t 分布。对于单尾检验,来自 α = 0.05 的 t 分布的值是 1.721。如果检验统计量高于参考值,将拒绝原假设。如果检验统计量低于参考线,将无法拒绝原假设。

单尾检验的决策过程

3. t 检验的类型

t 检验是一种使用假设检验来评估一个或两个总体均值的工具。t 检验可用于评估某个组是否与已知值有差异(单样本 t 检验),两个组是否彼此有差异(独立双样本 t 检验),或成对测量值中是否存在显著差异(成对或非独立样本 t 检验)。

下表汇总了上述每一种检验的特征,并就如何选择正确的检验提供了指导意见。

Screenshot 2023-04-27 at 17.54.52.png

上表仅显示总体均值的 t 检验。另一种常用的 t 检验是关于相关系数的。此类 t 检验可以用来确定相关系数与 0 之间是否存在显著差异。

t 检验最常见的四个用途:

  1. 单样本均值检验(One-sample t-test)
    用于检验 总体方差未知、正态数据或近似正态的 单样本的均值 是否与 已知的总体均值相等

  2. 独立样本均值检验(Independent two-sample t-test)
    用于检验 两对独立的 正态数据或近似正态的 样本的均值 是否相等,这里可根据总体方差是否相等分类讨论

  3. 配对样本均值检验(Dependent t-test for paired samples)
    用于检验 一对配对样本的均值的差 是否等于某一个值

  4. 回归系数的显著性检验(t-test for regression coefficient significance)
    用于检验 回归模型的解释变量对被解释变量是否有显著影响

无论是单样本t检验、独立样本t检验还是配对样本t检验,都有几个基本前提:

  1. t 检验属于参数检验,用于检验定量数据(数字有比较意义的),若数据均为定类数据则使用非参数检验。

  2. 样本数据服从正态或近似正态分布。

独立样本 t 检验,要求因变量需要符合正态分布性,如果不满足,此时可考虑使用非参数检验,具体来讲应该是MannWhitney检验进行研究。

单样本 t 检验,其默认前提条件是数据需要符合正态分布性,如果不满足,此时可考虑使用单样本Wilcoxon检验进行研究。

配对样本 t 检验,其默认前提条件是差值数据需要符合正态分布性,如果不满足,此时可考虑使用配对Wilcoxon检验进行研究。

Screenshot 2023-04-27 at 18.06.15.png

4. 单样本 t 检验

4.1 示例

对于单样本 t 检验,首先需要 1 个变量。还要有一种想法或假设,即总体均值有某个值。

同时,为了进行有效的检验,需要符合以下条件的数据:

(1)独立(值之间彼此不相关);
(2)连续型;
(3)通过从总体中抽取简单随机样本获得;
(4)此外,还要假设总体呈正态分布。

如,我们测量了能量棒样本的蛋白质克数。标签上写着能量棒含有 20 克蛋白质。我们想知道标签内容是否正确。

假设我们从多家不同的商店中收集了 31 根能量棒的随机样本,以此来代表一般消费者可以获取的能量棒的总体。能量棒的标签标明每根能量棒含有 20 克蛋白质。

能量棒随机样本中的蛋白质克数

从上表可以看到,有些能量棒的蛋白质含量低于 20 克。有些则高于 20 克。您可能会认为,数据显示标签信息正确。或许还有其他看法。统计检验为做出决策提供了可靠的方法,因此,每个人可以针对相同的数据集做出相同的决策。

首先需要检查数据,以确定t 检验这种方法能否恰当地检验能量棒含有 20 克蛋白质。下面的列表给出了t检验需符合的要求。

(1)数据值是独立的。一根能量棒中的蛋白质克数独立于任何其他能量棒中的蛋白质克数。例如,如果是从单一生产批次中收集的能量棒,数据值就是非独立的。从单一批次中抽取的样本只能代表该批次,不能广泛地代表能量棒。
(2)数据值是蛋白质克数。测量值是连续型的。
(3)假设能量棒是从一般消费者可以获取的能量棒总体(即不同批次的能量棒的组合)中抽取的简单随机样本。
(4)假设所需收集样本的总体是呈正态分布的,并且样本量极大。

基于以上条件,才可以确定 t 检验是适合的方法。

在进行分析之前,可以快速看一下数据。下图显示了关于能量棒的直方图和汇总统计量。

能量棒中蛋白质克数的直方图和汇总统计量

通过快速看一下直方图,可以看到没有异常的点,即离群值。数据看起来大致呈钟型,因此我们的正态分布假设似乎是合理的。

通过快速看一下统计量,可以看到,平均值是 21.40,高于 20。从 31 根能量棒样本得出的这个平均值,是否表明代表整个总体未知均值的 20 克蛋白质标签是无效的?

为了在 t 检验中计算统计量,需要有均值、标准差和样本大小。上图的汇总统计量部分显示了这些数据。

我们将统计量四舍五入到两位小数。(请注意,用于计算汇总统计量的实际数据有更多的小数位数,软件将显示这些小数位数,并在计算中使用它们。)

首先找到样本均值与 20 之间的差异:

21.40 − 20 = 1.40

接下来计算均值的标准误差:

均值的标准误差 =
Screenshot 2023-04-27 at 20.10.44.png

这与图中的值相符。

现在有了计算检验统计量的要素。接下来将计算检验统计量 t,如下所示:

Screenshot 2023-04-27 at 20.12.35.png

为了做出决策,将检验统计量与来自 t 分布的值进行比较。此操作包含 4 个步骤。

(1)计算检验统计量。这里的检验统计量是 3.07。

(2)确定愿意为错误结论(实际没有差异却误认为有差异)而承担的风险。对于能量棒数据,我们确定意为得出错误结论(即:当未知的总体均值实际上是 20 时,我们认为它不是 20)承担 5% 的风险。用统计学的方式表达,即设置 α = 0.05。在实践中,应该在收集数据之前设置风险水平 (α)。

(3)基于决策,找到来自 t 分布的值。对于 t 检验,需要通过自由度来找到这个值。自由度基于样本大小。对于能量棒数据:

自由度 = n − 1 = 31 − 1 = 30

α = 0.05 并且有 30 个自由度的临界 t 值是 +/- 2.043。大多数统计学书籍都有分布查询表,也可以在网上找到这些表格。最方便的方式是,可以直接使用软件,不必使用打印的表格。

将统计量的值 (3.07) 与临界 t 值进行比较。由于 3.07 > 2.043,我们将拒绝平均蛋白质克数等于 20 这个原假设。因此,可以得出的结论是:标签内容不正确,蛋白质克数的总体均值大于 20。

接下来使用统计学术语来复盘能量棒数据的分析流程。

这里的原假设是:潜在的总体均值等于 20。原假设的写法如下所示:

Screenshot 2023-04-27 at 20.21.20.png

备择假设是:潜在的总体均值不等于 20。即标签上写着蛋白质含量为 20 克是不正确的。备择假设的写法如下所示:

Screenshot 2023-04-27 at 20.24.19.png

这是双边检验,要分别在两个方向上检验总体均值与 20 克之间是否存在差异。如果可以拒绝均值等于 20 克这个原假设,就可能得出结论:能量棒的标签内容是错误的。如果我无法拒绝原假设,就可能得出结论:能量棒的标签内容可能是正确的。

计算样本的均值,然后计算与总体均值 mu 之间的差异:


计算标准误差,公式以 s 表示样本标准差,以 n 表示样本大小。 如下所示:


检验统计量使用下面的公式:

将检验统计量与通过为数据选择的 alpha 值和自由度得到的 t 值进行比较。以能量棒数据为例,设置 α = 0.05。自由度 (df) 基于样本大小,计算方法为:

df = n − 1 = 31 − 1 = 30

统计人员将 α = 0.05 并且有 30 个自由度的 t 值写作:


α = 0.05 并且有 30 个自由度的双边检验的 t 值是 +/- 2.042。我们的比较有两种可能的结果:

(1)检验统计量没有临界 t 值那么极端;换句话说,检验统计量不小于 -2.042,或不大于 +2.042。将无法拒绝均值等于指定的值这个原假设。即在本示例中将无法得出“应更改蛋白棒标签”这样的结论。

(2)检验统计量比临界 t 值更极端;换句话说,检验统计量小于 -2.042,或大于 +2.042。将拒绝均值等于指定的值这个原假设。即在本示例中得出的结论是:要么应该更新标签,要么应该改进生产过程,以确保所生产的蛋白棒中蛋白质的平均含量为 20 克。

4.2 检验正态性

相较于较大的样本,正态性假设对较小的样本更加重要。

正态分布是对称的,这意味着它们在中心的两侧是“均等”分布的。正态分布没有极端值,即离群值。可以通过图形来查看正态分布的这两个特征。前面我们已确定,能量棒数据“足够接近”正态,因此可以采用正态性假设。下图显示了数据的正态分位数图,与决策相符。

能量棒数据的正态分位数图

也可以使用软件来执行标准的正态性检验。下图显示了使用 JMP 软件来检验正态性的结果,显示无法拒绝正态分布假设,即可以采用能量棒数据呈正态分布这个假设。

使用 JMP 软件检验正态性

如果数据不符合正态分布,该怎么办?

如果样本很小,就难以检验正态性。在这种情况下,可能需要借助于对测量值的理解。例如,对于能量棒数据,公司知道蛋白质克数的潜在分布是呈正态分布的。那么,即使是对于很小的样本,公司也可能会采用 t 检验并做出正态性假设。

如果知道潜在测量值不是正态分布的,该怎么办?或者,如果样本较大并且正态性检验被拒绝,该怎么办?在这种情况下,可以使用非参数检验。非参数分析不依赖于数据值来自特定的分布这样的假设。对于单样本 t­ 检验,一种可能的非参数检验是 Wilcoxon 符号秩检验。

4.3 了解 p

可以使用直观的方式来检查检验统计量是否比分布中的指定值更极端。下图显示了具有 30 个自由度的 t 分布。

具有 30 个自由度且 α = 0.05 的 t 分布

由于是双边检验,并且设置了 α = 0.05,因此该图显示,2.042 这个值“切割”掉了位于尾部共计 5% 的数据。

下一幅图显示本次的结果。可以看到,检验统计量落在指定的临界值上方。它足够“远离尾部”,因此可以拒绝均值等于 20 这个假设。

在具有 30 个自由度的 t 分布中显示的结果

通常,我们可能会使用软件来执行 t 检验。下图显示了使用 JMP 软件执行的能量棒数据的单样本 t 检验结果。

使用 JMP 软件执行的能量棒数据的单样本 t 检验结果

软件显示了 20 这个原假设值,以及数据的平均值和标准差。检验统计量是 3.07。这与上面的计算相符。

软件显示了双边检验和单边检验的结果。这里执行双边检验。原假设是平均蛋白质克数等于 20。备择假设是平均蛋白质克数不等于 20。软件显示,双边检验的 p 值是 0.0046。这个 p 值描述了当潜在总体均值实际上是 20 时,我们看到样本平均值像 21.4 这么极端或者更极端的可能性;换句话说,也就是与我们在样本中观测到的均值相比,观测到某个样本均值与 20 之间存在差异(甚至存在更大差异)的概率。p 值是 0.0046 意味着在 10,000 次中大约有 46 次机会。我们可以充满信心地拒绝总体均值等于20 这个原假设。

关于α与p,可参见下方两篇文章~

[假设检验|第三章:统计学中的显著性水平α和P值]https://zhuanlan.zhihu.com/p/56663036

[T检验和其他假设检验的P值怎么理解]https://zhuanlan.zhihu.com/p/104351327#:~:text=

5. 双样本 t 检验

双样本 t 检验(也称为独立样本 t 检验)是一种统计检验方法,用于检验两个组的未知总体均值是否相等。

对于双样本 t 检验,首先需要两个变量。第一个变量定义两个组,第二个变量是感兴趣的测量值。还要有一些想法或假设,即:两个组的潜在总体均值不同。

如,测量两个不同品牌能量棒的蛋白质克数。这里的两个组就是这两个品牌。测量值是每根能量棒的蛋白质克数。假设两个品牌的潜在总体的平均蛋白质克数可能不同。我们想知道,是否有足够的证明来证明两个品牌能量棒的平均蛋白质克数不同。

同时,为了进行有效的检验,需要符合以下条件的数据:

(1)数据必须是独立的。一个观测值的测量值不影响任何其他观测值的测量值。
(2)每组中的数据必须是通过从总体中随机抽样获得的。
(3)每组中的数据呈正态分布。
(4)数据是连续型的。
(5)两个独立的组的方差相等。

对于很小的数据组,可能难以检验这些要求。下面将讨论如何使用软件来检查这些要求,以及当不满足某个要求时该如何做。

5.1 示例

测量体脂百分比是衡量一个人健康状况的一种方法。平均体脂百分比因年龄而异,但根据某些指导原则,男性体脂的正常范围是 15-20%,女性体脂的正常范围是 20-25%。

这里的样本数据来自一组男性和女性,他们在一年中每周在健身房锻炼三次。然后,他们的教练测量了体脂。下表显示了这些数据。

按性别分组的体脂百分比数据

在样本中可以清楚地看到,男性和女性的体脂测量值有些是叠加的,但也有一些差异。仅仅通过观察数据,很难就健身房中男性和女性这两个总体人群是否具有相同的平均体脂得出任何可靠的结论。这就是统计检验的价值 – 它们提供了一种通用的、在统计学上有效的方法来帮助人们做出决策,让每个人可以针对相同的数据集做出相同的决策。

首先需要检查数据,以判断,双样本 t 检验这种方法是否适合用来评估男性与女性之间的体脂差异?

(1)数据是独立的。任何一个人的体脂与另一个人的体脂无关。
(2)假设接受测量的个人代表从健身房会员总体中抽取的简单随机样本。
(3)假设数据是正态分布的,并且我们可以检验这种假设。
(4)数据是体脂测量值。测量值是连续型的。
(5)假设男性和女性的数据方差相等,并且我们可以检验这种假设。

在进行分析之前,需要快速看一下数据。下图显示了男性和女性的直方图和汇总统计量。

体脂数据的直方图和汇总统计量

两个直方图在相同的测量尺度上。通过快速看一下直方图,可以看到,没有十分异常的点,即离群值。数据看起来大致呈钟型,因此最初假设数据是正态分布这种想法似乎是合理的。

通过检验汇总统计量,还可以看到,标准差是相似的。这支持方差相等的想法。我们还可以使用方差检验来检查这一点。

从这些观测来看,双样本 t 检验这种方法似乎适合检验均值差异。

对于双样本 t 检验的每个组,需要有均值、标准差和样本大小。下表中显示了这些数据。

按性别分组的均值、标准差和样本大小统计量

没有执行任何检验就能看到,在样本中,男性和女性的均值是不同的。但它们是怎样不同呢?均值是否“足够接近”,可以得出这样的结论:健身房中男性和女性更大总体的平均体脂相同?或者,均值是否差异过大,让我们无法得出这样的结论?

下面的统计详情复盘中将进一步说明支持双样本 t 检验的原则,但这里先从头到尾继续完成相关的步骤。首先计算检验统计量。此计算首先是要找到两个均值之间的差异:

22.29 − 14.95 = 7.34

样本差异可以估计两组数据总体均值之间的差异。

接下来,计算合并标准差。这样可以合并起来估计总体标准差。估计值会针对不同的组大小进行调整。首先,计算合并方差:

接下来,取合并方差的平方根,以得到合并标准差。即:

√38.88 = 6.24

现在有了计算检验统计量的所有要素。我们有了均值差异、合并标准差和样本大小。检验统计量的计算如下所示:

Screenshot 2023-04-28 at 11.01.07.png

为了评估均值之间的差异,以便做出关于健身房课程的决策,我们、、将检验统计量与来自 t 分布的理论值进行比较。此操作包含 4 个步骤:

(1)确定我们愿意为宣告显著差异而承担的风险。对于体脂数据,我们愿意为得出错误结论(即,当男性和女性未知的总体均值实际上相等时,我们认为它们不相等)承担 5% 的风险。用统计学的表达方式,将以 α 表示的显著性水平设置为 0.05。最好在在收集数据之前以及计算检验统计量之前做出此设定。

(2)计算检验统计量。检验统计量为2.80。

(3)根据我们的原假设(即男性和女性的均值相等)从 t 分布中找到理论值。大多数统计学书籍都有 t 分布查询表,也可以在网上找到这些表格。

为了找到这个值,我们需要有显著性水平 (α = 0.05) 和自由度。自由度 (df ) 基于两组的样本大小。对于体脂数据,也就是:

df = n1 + n2 −2 = 10 + 13 − 2 = 21

α = 0.05 并且具有 21 个自由度的 t 值是 2.080。

(4)将统计量的值 (2.80) 与 t 值进行比较。由于 2.80 > 2.080,我们将拒绝男性和女性的平均体脂相等这个原假设,并可以得出这样的结论:我们有证据证明男性和女性总体的体脂不同。

下面使用统计学术语来复盘体脂数据和双样本 t 检验。

这里的原假设是:潜在的总体均值相同。原假设的写法如下所示:

备择假设是:均值不相等。备择假设的写法如下所示:

计算每组的均值,然后计算两个均值之间的差异。

计算合并标准差。这里假设潜在的总体方差相等。合并方差公式如下所示:

公式以 n1 表示第一组的样本大小,以 n2 表示第二组的样本大小。两组的标准差是 s1 和 s2。这种估计允许两组有不同的观测值数量。合并标准差是方差的平方根,以 sp 表示。

如果两组的样本大小相同,该怎么办?在这种情况下,合并方差估计值就是两组的方差平均值:

检验统计量的计算方法是:

检验统计量的分子是两组平均值之间的差异。它可以估计两个未知总体均值之间的差异。分母是两个未知总体均值之间的差异的标准误差估计值(技术详情:对于单个均值,标准误差是 s / √n 。上面的公式将这种想法扩展到了使用合并的 s(标准差)估计值以及可以有不同组大小的两个组)。

然后,将检验统计量与我们为数据所选择的 alpha 值和自由度得到的 t 值进行比较。以体脂数据为例,设置 a = 0.05。自由度 (df) 基于组大小,计算方法为:

df = n1 + n2 −2 = 10 + 13 − 2 = 21

公式以 n1 表示第一组的样本大小,以 n2 表示第二组的样本大小。统计师将 α = 0.05 并且有 21 个自由度的 t 值写作:


α = 0.05 并且有 21 个自由度的 t 值是 2.080。我们的比较有两种可能的结果:

检验统计量低于 t 值。您无法拒绝均值相等这个原假设。您得出的结论是:数据支持男性和女性有相同的平均体脂这个假设。
检验统计量高于 t 值。您将拒绝均值相等这个原假设。您无法得出男性和女性有相同的平均体脂这个结论。

5.2 有不等方差的 t 检验

当两组方差不等时,或者对它们一无所知,满足


在总体方差不等的情况下,t 统计量的分母已不是总体方差的无偏估计,已不再适用,需重新构造一个t统计量,这里需要利用Satterthwaite近似法。

当两组方差不等时,我们无法使用合并的标准差估计值。相反,分别取每组的标准误差。检验统计量是:


检验统计量的分子与前面相同。它是两组平均值之间的差异。分母是均值之间差异的总体标准误差估计值。它基于每个组单独的标准误差。

有不等方差的 t 值的自由度计算比有相等方差的自由度计算更为复杂,这通常留给统计软件来处理。需要记住的重点是:如果无法使用合并的标准差估计值,就无法使用简单的公式来计算自由度。

它的自由度ν是:

Screenshot 2023-04-28 at 13.08.12.png

其中 ν1 = n1 − 1, ν2 = n2 − 1 分别是 X1, X2 的自由度,当n1, n2 > 5 时,近似 t 分布的效果比较好。

同样地,根据研究的问题确定是双侧检验(two-side test)还是单侧检验(one-side test),若为双侧检验,则查 t 界值表中自由度为ν
,双侧α,得到临界值 t α/2,ν;若为单侧检验,则查t界值表中自由度为ν,单侧α,得到临界值 t α,ν。

5.3 检验正态性

当两组的样本较小时,相对于较大的样本,正态性假设更加重要。

正态分布是对称的,这意味着它们在中心的两侧是“均等”分布的。正态分布没有极值,即离群值。可以通过图形来查看正态分布的这两个特征。前面我们已确定,体脂数据“足够接近”正态,因此可以采用正态性假设。下图显示了男性和女性的正态分位数图,它支持我们的决策。

男性体脂测量值的正态分位数图
女性体脂测量值的正态分位数图

也可以使用软件来执行标准的正态性检验。图中显示了使用 JMP 软件来检验正态性的结果。我们分别检验每个组。对男性的检验和对女性的检验都表明,我们无法拒绝正态分布假设。我们可以采用男性和女性的体脂数据呈正态分布这个假设。

对不等方差的检验比较复杂。这里没有详细说明计算方法,但会展示JMP 软件的检验结果。下图显示了对体脂数据的不等方差进行检验的结果。


对体脂数据的不等方差进行的检验

这里不深入探讨对不等方差进行各类检验的详细信息,我们将使用 F 检验。在检验之前,我们确定,对于得出错误结论(即当方差不相等时我们认为它们是相等的),我们可接受 10% 的风险。这意味着我们设置了 α = 0.10。

和大多数统计软件一样,JMP 显示了检验的 p 值。这是为检验统计量找到比观测到的值更为极端的值的可能性。它难以手动计算。就上图而言,F 检验统计量是 1.654,p 值是 0.4561。这大于我们的 α 值:0.4561 > 0.10。因此,我们无法拒绝方差相等这个原假设。就实际操作而言,我们可以采用双样本 t 检验,并假设两组的方差相等。

5.4 了解 p 值

可以使用直观的方式来检查检验统计量是否比分布中的值更为极端。下图显示了具有 21 个自由度的 t 分布。

具有 21 个自由度且 α = 0.05 的 t 分布

由于我们是双侧检验,且设置了 α = 0.05,因此该图显示,2.080 这个值“切割”掉了位于双尾的每一个尾部中的 2.5% 的数据。总体数据中只有 5% 的数据比 2.080 更远离尾部。因为我们的检验统计量 2.80 超出了切割点,所以我们将拒绝均值相等这个原假设。

下图显示了使用 JMP 软件对体脂数据执行双样本 t 检验的结果。


使用 JMP 软件执行双样本 t 检验的结果

假设方差相等的双样本 t 检验的结果与我们前面计算的结果相同。检验统计量是 2.79996。软件显示了双边检验和单边检验的结果。双侧检验是我们想要的(概率 > |t|)。我们的原假设是:男性和女性的平均体脂相等。我们的备择假设是:平均体脂不相等。单侧检验适用于单侧备择假设 – 例如,适用于男性的平均体脂低于女性的平均体脂这个原假设。

我们可以拒绝两组的平均体脂相等这个原假设,并得出这样的结论:我们有证据证明男性总体和女性总体的体脂存在差异。软件显示,p 值是 0.0107。我们确定,有 5% 的风险会在男性和女性的平均体脂相等时得出二者的体脂存在差异的结论。必须在执行统计检验之前做出此决策,这很重要。

该图还显示了不假设方差相等的 t 检验的结果。该检验不使用合并的标准差估计值。如我们前面提到的那样,该检验也有复杂的公式来计算自由度。您可以看到,自由度是 20.9888。软件显示,p 值是 0.0086。同样,由于我们确定了 5% 的风险,我们可以拒绝男性和女性的平均体脂相等这个原假设。

5.5 其他

如果有两个以上的组,该怎么办?

如果您有两个以上的独立组,将无法使用双样本 t 检验。您应该使用多重比较方法。ANOVA(即方差分析)就是这样的一种方法。其他多重比较方法包括:用于检验所有配对差异的 Tukey-Kramer 检验,用于将组间均值与总体均值进行比较的均值分析 (ANOM),或用于将每个组均值与对照均值进行比较的 Dunnett’s 检验。

如果数据不符合正态分布,该怎么办?

如果样本很小,可能难以检验正态性。在这种情况下,您可能需要借助于您对测量值的理解。例如,对于体脂数据,教练知道体脂的潜在分布是正态分布。即使是对于很小的样本,教练也可能会采用 t 检验并做出正态性假设。

如果您知道潜在测量值不是正态分布的,该怎么办?或者,如果样本量较大并且正态性检验被拒绝,该怎么办?在这种情况下,您可以使用非参数分析。这种类型的分析不需要假设数据来自特定的分布。对于双样本 t­ 检验,Wilcoxon 秩和检验就是一种可以使用的非参数检验。

6. 配对 t 检验

配对 t 检验,用于检验配对测量值之间的均值差异是否为 0。
这种情况常常出现在生物医学研究中,常见的情形有:

(1)配对的受试对象分别接受不同的处理(如将小白鼠配对为两组,分别接受不同的处理,检验处理结果的差异)
(2)同一受试对象的两个部分接受不同的处理(如对于一批血清样本,将其分为两个部分,利用不同的方法接受某种化合物的检验,检验结果的差异

数据是成对的测量值,成对测量值之间的差异也应该是正态分布的,或近似正态,而且要求总体方差相等。

如果样本量很小,可能无法检验正态性。需要依赖对数据的理解。或者或者执行没有正态性假设的非参数检验。

对于配对 t 检验,首先需要两个变量。一个变量定义配对观测值。第二个变量是测量值。

有时候,我们已经有了测量变量的成对差异。而其他时候,我们有代表每对测量值“之前”和“之后”的单独变量,需要计算差异。

然后还要有一种想法或假设,即数据组之间的差异是 0。这里有三个示例:

(1)一组干性皮肤的人群在其一只手臂上使用含有药物的乳液,而在另一只手臂上使用不含药物的乳液。一周后,医生会测量每只手臂上的发红程度。我们想知道,含有药物的乳液是否比不含药物的乳液效果更好。我们要弄清楚,涂有含药乳液的手臂上的发红程度是否比另一只手臂上的红发红程度轻。由于我们有每个人测量前后的数值,因此可以找到差异。然后,我们将检验均值差异是否为 0。

(2)我们测量一项戒烟计划中人们的体重。对于每个人,我们有他们在计划开始时和结束时的体重。我们想知道,在该计划中,人们的平均体重变化是否为 0。

(3)讲师让学生参加了一次考试,第二天又让学生参加了基于相同学习材料的另一次考试。讲师想知道,这两次考试难度是否相等。我们计算每个学生考试分数的差异。我们将检验均值差异是否为 0。

要应用配对 t 检验来检验成对测量值之间的差异,需要遵循以下假设:

(1)受试者必须是独立的。一个受试者的测量值不影响任何其他受试者的测量值。
(2)每一对测量值必须来自同一个受试者。例如,在上面的例子中,某个抽烟者“之前”和“之后”的体重必须是同一个人的体重。
(3)测量的差异是呈正态分布的。

6.1 示例

讲师想明年在她的班级中开展两次考试。今年,她让学生参加了这两次考试。她想知道考试难度是否相等,并且想通过观察分数之间的差异来检查这一点。如果学生分数之间的均值差异“足够接近”0,她将得出有意义的结论,即考试难度相等。这里是数据:

每个学生的考试分数

从上表中可以看到,分数差异有些是正值,有些是负值。您可能会认为,两次考试难度相等。其他人可能会有不同观点。统计检验提供了一种做出决策的常用方法,可以让每个人针对相同的数据做出相同的决策。

首先需要检查数据,以判断,配对 t 检验是否适合用来评估两次考试之间的难度差异?

(1)受试者是独立的。每个学生独立完成两次考试。
(2)每一对测量值都来自同一个受试者。每个学生都参加了两次考试。
(3)差异是正态分布的。目前,我们将假设这是真的。稍后,我们将对此进行进一步检验。

因此确,定我们选择了正确的分析方法。

在进行分析之前,可以对数据进行绘图快速查看。下图显示了分数差异的直方图和汇总统计量。

考试分数差异的直方图和汇总统计量

从直方图中可以看到,没有十分异常的点,即离群值。数据大致呈钟型,因此我们认为差异呈正态分布这个想法似乎是合理的。

从统计量中可以看到,均值差异是 1.3。这是否“足够接近”0,是否可以让讲师确定两次考试难度相等?

我们将在后面的统计详情复盘中进一步说明配对 t 检验的原则,此处先从头到尾继续完成相应的步骤。

首先计算检验统计量。
为此,需要有平均差异、差异的标准差和样本大小。上图中显示了这些数据。(请注意,下面将统计量四舍五入到两位小数。软件通常会显示更多的小数位数,并在计算中使用它们。)

平均分数差异是:

接下来计算分数差异的标准误差。计算如下:

在上面的公式中,n 是学生人数 – 这是差异的数量。差异的标准差是 sd。

现在有了计算检验统计量的要素。开始计算检验统计量,如下所示:


Screenshot 2023-04-28 at 16.40.12.png

为了做出决策,我们将检验统计量与来自 t 分布的值进行比较。此操作包含 4 个步骤:

(1)确定愿意为在实际没有差异却误认为有差异时而承担的风险。对于考试分数数据,我们愿意为得出错误结论(即,当未知的平均考试分数差异不是 0 时,我们认为它是 0)承担 5% 的风险。用统计学的表达方式,我们将以 α 表示的显著性水平设置为 0.05。最好在收集数据之前,以及计算检验统计量之前做出决策。

(2)计算检验统计量。我们的检验统计量是 0.750。

(3)找到来自 t 分布的值。大多数统计学书籍都有分布查询表,也可以在网上找到这些表格。最可能的情况是使用软件进行分析,而非打印的表格。

为了找到这个值,我们需要有显著性水平 (α = 0.05) 和自由度。自由度 (df) 基于样本大小。对于考试分数数据,即:

df = n − 1 = 16 − 1 = 15

α = 0.05 并且具有 15 个自由度的 t 值是 2.131。

(4)将统计量的值 (0.750) 与 t 值进行比较。因为 0.750 < 2.131,我们无法拒绝平均分数差异是 0 这种假设。因此,我们得出有意义的结论,认为考试难度相等。

下面使用统计学术语来看看考试分数数据和配对 t 检验。

原假设是:总体均值差异为 0。原假设的写法如下所示:


备择假设是:总体均值差异不为 0。备择假设的写法如下所示:


计算标准误差,如下所示:


公式以 sd 表示差异的样本标准差,以 n 表示样本大小。

检验统计量的计算方法是:


将检验统计量与通过我们为数据选择的 alpha 值和自由度得到的 t 值进行比较。以考试分数数据为例,我们设置 α = 0.05。自由度 (df) 基于样本大小,计算方法为:

df = n − 1 = 16 − 1 = 15

统计人员将 α = 0.05 并且有 15 个自由度的 t 值写作:


α = 0.05 并且有 15 个自由度的 t 值是 2.131。我们的比较有两种可能的结果:

(1)检验统计量低于 t 值。您无法拒绝平均差异为 0 这个假设。讲师可以得出的结论是:两次考试难度相等。明年,她可以开展两次考试,让一半的学生参加第 1 次考试,让另一半的学生参加第 2 次考试。
(2)检验统计量高于 t 值。您将拒绝平均差异为0 这个假设。讲师可以得出的结论是:两次考试难度不等。她必须让所有学生参加相同的考试。

6.2 检验正态性

相较于较大的样本量,正态性假设对较小的样本量更加重要。

正态分布是对称的,这意味着它们在中心的两侧是“均等”分布的。正态分布没有极值,即离群值。可以通过图形来查看正态分布的这两个特征。前面我们已确定,考试分数差异的分布“足够接近”正态,因此可以采用正态性假设。下图显示了数据的正态分位数图,它印证了我们的决策。

考试数据的正态分位数图

也可以使用软件来执行标准的正态性检验。下图显示了使用 JMP 来检验正态性的结果。检验分数差异的分布。我们无法拒绝正态分布假设。我们可以采用配对 t­ 检验。

使用 JMP 软件检验正态性

如果数据不符合正态分布,该怎么办?

如果样本量很小,就难以检验正态性。在这种情况下,需要对所分析的数据有一定的理解。比如,对于考试分数数据,讲师清楚分数差异的潜在分布是符合正态分布的。即使是很小的样本量,讲师也可能会采用 t 检验并做出正态性假设。

如果知道潜在测量值不是正态分布的,该怎么办?或者,如果样本量较大并且正态性检验被拒绝,该怎么办?在这种情况下,可以使用非参数分析。这种类型的分析不需要假设数据来自特定的分布。对于配对 t­ 检验,一种非参数检验方法是 Wilcoxon 符号秩检验。

6.3 了解 p 值

可以使用直观的方式来检查检验统计量是否比分布中的值更极端。t 分布与正态分布相似。下图显示了具有 15 个自由度的 t 分布。

具有 15 个自由度且 α = 0.05 的 t 分布

由于是双侧检验,并且设置了 α = 0.05,因此该图显示,2.131 这个值“切割”掉了位于双尾每个尾部 2.5% 的数据。总体数据中只有 5% 的数据比 2.131 更远离尾部。

下图显示了我们的结果落在图形中的位置。可以看到,检验统计量 (0.75) 并未足够“远离尾部”,因此无法拒绝平均差异是 0 这个假设。


t 检验的结果 – 检验统计量小于 |2.131|

6.4 使用软件执行一站式操作

若要在实操时执行配对 t 检验,大多可能要使用软件。下图显示了使用 JMP 执行的考试分数数据的配对 t 检验结果。

使用 JMP 软件执行的考试分数数据的配对 t 检验结果

软件显示了双侧检验(概率 > |t|)和单侧检验的结果。双侧检验是我们想要的。我们的原假设是:成对考试分数之间的平均差异是 0。我们的备择假设是:平均差异不等于 0。

软件显示,双侧检验的 p 值是 0.4650。这意味着,当潜在的总体平均差异是 0 时,看到样本平均差异大于或等于 1.31 的可能性在 100 次中大约有 47 次机会。我们有信心做出不拒绝原假设的决策。讲师可以实施她的计划,即,明年开展两次考试,让一半的学生参加第 1 次考试,让另一半的学生参加第 2 次考试。

参考资料:

  1. https://www.jmp.com/zh_cn/statistics-knowledge-portal/t-test/t-distribution.html

  2. https://www.jmp.com/zh_cn/statistics-knowledge-portal/t-test.html

  3. https://zhuanlan.zhihu.com/p/68736699

  4. https://www.jmp.com/zh_cn/statistics-knowledge-portal/t-test/two-sample-t-test.html

  5. https://zhuanlan.zhihu.com/p/138711532

  6. https://www.jmp.com/zh_cn/statistics-knowledge-portal/t-test/paired-t-test.html

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容