在假设检验中,显着性水平和P值意味着什么? 究竟什么是统计显著性? 在这篇文章中,我主要用概念和图形来帮助读者更直观地理解假设检验在统计学中的工作原理。
为了实现它,我将显着性水平和P值添加到我之前的帖子的图形中,以便展示单样本t检验的图形化版本。
这是我们在上一篇文章中离开的地方。 我们想确定我们的样本平均值(330.6)是否表明今年的平均能源成本与去年的平均能源成本(260)显着不同。
上面的概率分布图显示了我们在假设零假设为真(总体均值= 260)的情况下获得的样本均值分布,并且我们反复绘制了大量随机样本。
我给你留下了一个问题:我们在图表上哪里绘制一条线来表示统计显著性? 现在我们将添加显着性水平和P值,这是我们需要的决策工具。
我们将使用这些工具来测试以下假设:
- 零假设:总体均值等于假设均值(260)
- 备选假设:总体均值与假设均值不同(260)
什么是显着性水平()?
显着性水平,也表示为alpha或α,是在零假设为真时拒绝零假设的概率。 例如,显着性水平0.05表示当没有实际差异时得出存在差异的5%风险。
由于其技术性质,这些类型的定义很难理解。 图片使概念更容易理解!
显着性水平决定了我们在图上绘制该线到零假设值的距离。 为了显示0.05的显着性水平,我们需要在距离零假设最远的5%的分布绘制阴影。
在上图中,两个阴影区域与零假设值等距,每个区域的概率为0.025,总共为0.05。 在统计学中,我们将这些阴影区域称为双尾测试的临界域(critical region )。 临界域决定了我们的样本统计量与零假设值之间的距离,在我们可以说它不足以拒绝零假设之前。
我们的样本均值(330.6)在临界域内,这表明它在0.05水平上具有统计学意义。
我们还可以使用0.01的其他常见显着性水平来判断它是否具有统计学意义。
两个阴影区域的概率均为0.005,总概率为0.01。 这次我们的样本均值不在临界域内,我们不能拒绝零假设。这个比较展示了你在开始学习之前为什么需要选择显着性水平的原因。它可以让你不需要选择显着性水平,因为它很方便地为你提供显着性的结果。
使用图表,我们能够确定我们的结果在0.05水平上具有统计显着性,而不需要使用P值。 但是,当你使用统计软件生成数字输出时,你需要将P值与你的显着性水平进行比较才可以得出结果。
什么是P值?
P值是假设零假设为真时所得到的样本观察结果或获得更极端的结果的概率。
P值的这个定义虽然在技术上是正确的,但有点复杂。 用图表更容易理解!
为了绘制我们的示例数据集的P值,我们需要确定样本均值和零假设值之间的距离(330.6-260 = 70.6)。 接下来,我们可以绘制获得样本均值的概率,该均值至少在分布的两个尾部中都是极端的(260 +/- 70.6)。
在上图中,两个阴影区域的概率均为0.01556,总概率为0.03112。 如果总体均值为260,则该概率表示获得至少与分布尾部中的样本均值一样极端的样本均值的可能性。这是我们的P值!
当P值小于或等于显着性水平时,拒绝零假设。 如果我们将P值作为示例并将其与常用显着性水平进行比较,则它与先前的图形结果相匹配。 P值0.03112在α水平为0.05时具有统计显着性,但在0.01水平时不具有统计学意义。
如果我们坚持0.05的显着性水平,我们可以得出结论,人口的平均能源成本大于260。
关于统计显着性结果的讨论
假设检验评估关于总体的两个相互排斥的陈述,以确定样本数据最佳支持哪个陈述。 当样本统计量相对于零假设足够异常时,测试结果具有统计学意义,即我们可以拒绝整个总体的零假设。 假设检验中的“异常”定义为:
- 零假设为真的假设——图表以零假设值为中心。
- 显着性水平——临界线距离零假设值是多远?
- 我们的样本统计量——是否属于临界域?
请记住,没有神奇的显着性水平可以区分具有真实效果的研究和不具有100%准确性的研究。 常见的alpha值0.05和0.01仅仅基于传统。 对于0.05的显着性水平,期望在零假设为真时的5%的临界域中获得样本均值。在这些情况下,你不会知道零假设是正确的,但你会拒绝它,因为样本均值落在临界区域。这就是为什么显着性水平也被称为错误率!
显着性水平和P值是帮助你在假设检验中量化和控制此类错误的重要工具。 使用这些工具来决定何时拒绝原假设会增加你做出正确决策的机会。
都看到最后了,要不~点个赞?加波关注?