[说人话的统计学·协和八]第三章·下 t 检验-两组平均数的比较

注：说人话的统计学系列原连载于协和八微信公众号。本文为笔者的学习笔记，每篇文章标题已加入原文超链接。如侵权请告知。

第3章 t 检验：两组平均数的比较

07 t 检验用不了？别慌，还有神奇的非参数检验 | 协和八

非参数检验

适用于数据不服从正态分布的情况

t 检验成员都有非参数检验的「对应版本」：
单样本 t 检验和成对样本的 t 检验对应于威尔科克森符号秩检验，以下简称符号秩检验
独立样本的 t 检验对应于曼-惠特尼 U 检验（也叫做曼-惠特尼秩和检验），下面简称秩和检验
秩和检验是非参数检验中，用来比较两个独立样本数据的检验方法。秩和检验用 U 统计量来检验原假设。
秩和检验并没有用到一个数据的绝对数值，而只用到了数据的相对大小——秩。

非参数检验优点

结论不会受个别极端数据值干扰
秩和检验并不要求数据正态
秩和检验还适用于代表等级的定序变量

t检验优点

如果数据确实来自正态分布的总体，如果用了秩和检验而不是 t 检验，会降低统计功效。即实际上有显著差异的两组数据更容易被误判为没有差异。
直接检验两组数据的均值是否相等，因此结果有着直观的解释，而秩和检验是检验一组数据大于另外一组数据的概率是不是大于 0.5，这并不直观。

08 只讲 p 值，不讲效应大小，都是耍流氓！| 协和八

t 检验是为了对一组或者两组个体的某个连续变量的平均值进行统计推断。
非参数检验则是中位数。
极端地说，不管与原假设的差别有多小，只要样本量足够大，p 值总会达到显著的水平。
一个很低的 p 值，可以源于很大的效应，也可以来自很小的效应但很大的样本量，还可能是效应大、样本量也大。

09 找出t检验的效应大小，对耍流氓 say no！| 协和八

单样本 t 检验的效应大小

我们可以把平均值与标准值之差除以样本的标准差。这样一来，效应大小就是一个综合了平均值的差异及其不确定性的数量了，称为 Cohen 氏 d 值：

Cohen 氏 d 值使我们能够把来自完全不同的数据的若干 t 检验的效应大小放在同一个尺度上比较
Cohen 氏 d 值的发明人 Jacob Cohen 曾经提出过一条经验准则，把 d 值为 0.2，0.5 和 0.8 的效应分别称为小、中、大效应

成对样本t 检验的效应大小

由于成对样本和独立样本 t 检验都涉及两个样本，因此这个标准差是结合了两个样本的「合并标准差」（pooled standard deviation）

独立样本 t 检验的效应大小

利用效应大小进行 t 检验的功效分析

效应大小、显著性水平（α，通常为 0.05）、统计功效（1-β，通常为 0.8）和样本量（n）只要知道其中三个，就能求出第四个
使用G*Power软件

10 用置信区间，就是这么（不）自信！| 协和八

为什么还需要 Cohen氏 d值这些量呢？

不会受到测量单位和尺度的影响

Cohen氏 d值有什么问题

只是个「点估计」(point estimation)这个数的精确值很可能是产生样本时随机性的结果
在构造 Cohen氏 d值时，为了消除数据本身所带的单位，并且把关于平均值的不确定性的信息包含进来，我们采取了均值差除以标准差的方法。这可是一把双刃剑——单位是去掉了，但是算出来的 Cohen氏 d值却仿佛进入了一个陌生的世界

解决方案引入置信区间

用一个范围或区间来表示效应大小及其不确定性。用统计学的术语来说，这叫做区间估计(interval estimation)。
而这个范围或区间本身，被称为置信区间(confidence interval)。
如果我们重复从同一个总体中获得样本，用同样的方法构建出许多用于估计效应大小的区间，这些区间中包含真实值的比例便是区间估计的置信度(confidence level)。
一般选用 95% 的置信度，从而与 p=0.05 的显著性水平相对应。

11 如何确定 t 检验的置信区间 | 协和八

一个 95% 置信区间并不意味着真实值落在这一个区间内的概率为 95%，而是说如果重复许多次实验，每个实验按这样的方法构造出一个 95% 置信区间，在这所有的置信区间中，将有 95% 的区间包含了真实值。
如果总体标准差已知，那么样本均值的分布仍然是个正态分布，但是它的标准差将会是总体标准差根据样本量（在刚才的例子里是 10）按一定比例缩小所确定的值；如果总体标准差未知，那么样本均值的分布就变成了一个 t 分布，它的具体参数由样本均值、样本量、样本标准差三者共同确定。

12 优雅秀出你的t检验，提升Paper逼格！ | 协和八

八股文：
用单样本 t 检验对比了格格巫包子的重量与标准包子重量（50g）的区别，发现格格巫包子的重量（平均值＝45g，标准差＝3g，95% 置信区间 [ 43.8g，46.2g ] ）与标准值 50g 有显著区别（ t (25)=4.2, p < 0.001 ）。
信息量的角度，散点图>箱线图>柱状图
标准差（ standard deviation, 缩写为 sd 或者 std ）
标准误差（standard error of the mean，缩写 se 或者 sem ）
后者是前者除以 √n，这里 n 是样本量

13 要做 t 检验，这两口毒奶可喝不得！| 协和八

显著性的差异 vs. 差异的显著性

两组数据各自进行某个检验，其显著性的差别并不代表这两组数据的差别具有显著性

数据点的独立性

只要数据的结构是有「嵌套」（ nested ）关系的，都会具有相互不独立的特征。

比方说，我们希望分析江苏省居民的可支配收入，同时我们还记录了所有江苏省居民住在哪个小区、哪个城市，这样就形成了一个具有嵌套关系的样本，因为每个小区都包含了若干个居民数据点（居民被「嵌套」在小区里），而每个城市又包含了若干小区（小区被「嵌套」在城市里）
解决方案
第一，我们可以选定嵌套关系中的某一层，以该层为单位将不同的数据点取平均，这样一来，这一层的每个单元就只有一个数据点，在有些条件下它们之间可以认为是相互独立的。

在上面这个例子里，格格巫可以先把每只小鼠的 3 个血压降低值取平均，然后再对两组（每组 10 个数据点）数据做 t 检验。这样做的优点是让我们回到基本的 t 检验等方法，容易掌握和解读，但缺点则是损失了原始数据中的一部分信息（每只小鼠重复测量的波动性的差别），因而会在一定程度上降低统计效能。

而更好、也更复杂的解决方法，是使用多层模型（ multilevel models，又称分层模型 hierarchical models )

[说人话的统计学·协和八]第三章·下 t 检验-两组平均数的比较