[说人话的统计学·协和八]第三章·下 t 检验-两组平均数的比较

注:说人话的统计学系列原连载于协和八微信公众号。本文为笔者的学习笔记,每篇文章标题已加入原文超链接。如侵权请告知。

第3章 t 检验:两组平均数的比较

07 t 检验用不了?别慌,还有神奇的非参数检验 | 协和八

非参数检验

适用于数据不服从正态分布的情况

t 检验成员都有非参数检验的「对应版本」:
单样本 t 检验和成对样本的 t 检验对应于威尔科克森符号秩检验,以下简称符号秩检验
独立样本的 t 检验对应于曼-惠特尼 U 检验(也叫做曼-惠特尼秩和检验),下面简称秩和检验
秩和检验是非参数检验中,用来比较两个独立样本数据的检验方法。秩和检验用 U 统计量来检验原假设。
秩和检验并没有用到一个数据的绝对数值,而只用到了数据的相对大小——秩。

非参数检验优点

结论不会受个别极端数据值干扰
秩和检验并不要求数据正态
秩和检验还适用于代表等级的定序变量

t检验优点

如果数据确实来自正态分布的总体,如果用了秩和检验而不是 t 检验,会降低统计功效。即实际上有显著差异的两组数据更容易被误判为没有差异。
直接检验两组数据的均值是否相等,因此结果有着直观的解释,而秩和检验是检验一组数据大于另外一组数据的概率是不是大于 0.5,这并不直观。

08 只讲 p 值,不讲效应大小,都是耍流氓!| 协和八

t 检验是为了对一组或者两组个体的某个连续变量的平均值进行统计推断。
非参数检验则是中位数。
极端地说,不管与原假设的差别有多小,只要样本量足够大,p 值总会达到显著的水平。
一个很低的 p 值,可以源于很大的效应,也可以来自很小的效应但很大的样本量,还可能是效应大、样本量也大。

09 找出t检验的效应大小,对耍流氓 say no!| 协和八

单样本 t 检验的效应大小

我们可以把平均值与标准值之差除以样本的标准差。这样一来,效应大小就是一个综合了平均值的差异及其不确定性的数量了,称为 Cohen 氏 d 值:


Cohen 氏 d 值使我们能够把来自完全不同的数据的若干 t 检验的效应大小放在同一个尺度上比较
Cohen 氏 d 值的发明人 Jacob Cohen 曾经提出过一条经验准则,把 d 值为 0.2,0.5 和 0.8 的效应分别称为小、中、大效应

成对样本t 检验的效应大小

由于成对样本和独立样本 t 检验都涉及两个样本,因此这个标准差是结合了两个样本的「合并标准差」(pooled standard deviation)


独立样本 t 检验的效应大小

利用效应大小进行 t 检验的功效分析

效应大小、显著性水平(α,通常为 0.05)、统计功效(1-β,通常为 0.8)和样本量(n)只要知道其中三个,就能求出第四个
使用G*Power软件

10 用置信区间,就是这么(不)自信!| 协和八

为什么还需要 Cohen氏 d值这些量呢?

不会受到测量单位和尺度的影响

Cohen氏 d值有什么问题

  • 只是个「点估计」(point estimation)这个数的精确值很可能是产生样本时随机性的结果
  • 在构造 Cohen氏 d值时,为了消除数据本身所带的单位,并且把关于平均值的不确定性的信息包含进来,我们采取了均值差除以标准差的方法。这可是一把双刃剑——单位是去掉了,但是算出来的 Cohen氏 d值却仿佛进入了一个陌生的世界

解决方案 引入置信区间

用一个范围或区间来表示效应大小及其不确定性。用统计学的术语来说,这叫做区间估计(interval estimation)。
而这个范围或区间本身,被称为置信区间(confidence interval)。
如果我们重复从同一个总体中获得样本,用同样的方法构建出许多用于估计效应大小的区间,这些区间中包含真实值的比例便是区间估计的置信度(confidence level)。
一般选用 95% 的置信度,从而与 p=0.05 的显著性水平相对应。

11 如何确定 t 检验的置信区间 | 协和八

一个 95% 置信区间并不意味着真实值落在这一个区间内的概率为 95%,而是说如果重复许多次实验,每个实验按这样的方法构造出一个 95% 置信区间,在这所有的置信区间中,将有 95% 的区间包含了真实值。
如果总体标准差已知,那么样本均值的分布仍然是个正态分布,但是它的标准差将会是总体标准差根据样本量(在刚才的例子里是 10)按一定比例缩小所确定的值;如果总体标准差未知,那么样本均值的分布就变成了一个 t 分布,它的具体参数由样本均值、样本量、样本标准差三者共同确定。

12 优雅秀出你的t检验,提升Paper逼格! | 协和八

八股文:
用单样本 t 检验对比了格格巫包子的重量与标准包子重量(50g)的区别,发现格格巫包子的重量(平均值=45g,标准差=3g,95% 置信区间 [ 43.8g,46.2g ] )与标准值 50g 有显著区别( t (25)=4.2, p < 0.001 )。
信息量的角度,散点图>箱线图>柱状图
标准差( standard deviation, 缩写为 sd 或者 std )
标准误差(standard error of the mean,缩写 se 或者 sem )
后者是前者除以 √n,这里 n 是样本量

13 要做 t 检验,这两口毒奶可喝不得!| 协和八

显著性的差异 vs. 差异的显著性

两组数据各自进行某个检验,其显著性的差别并不代表这两组数据的差别具有显著性

数据点的独立性

只要数据的结构是有「嵌套」( nested )关系的,都会具有相互不独立的特征。

比方说,我们希望分析江苏省居民的可支配收入,同时我们还记录了所有江苏省居民住在哪个小区、哪个城市, 这样就形成了一个具有嵌套关系的样本,因为每个小区都包含了若干个居民数据点(居民被「嵌套」在小区里),而每个城市又包含了若干小区(小区被「嵌套」在城市里)
解决方案
第一,我们可以选定嵌套关系中的某一层,以该层为单位将不同的数据点取平均,这样一来,这一层的每个单元就只有一个数据点,在有些条件下它们之间可以认为是相互独立的。

在上面这个例子里,格格巫可以先把每只小鼠的 3 个血压降低值取平均,然后再对两组(每组 10 个数据点)数据做 t 检验。这样做的优点是让我们回到基本的 t 检验等方法,容易掌握和解读,但缺点则是损失了原始数据中的一部分信息(每只小鼠重复测量的波动性的差别),因而会在一定程度上降低统计效能。

而更好、也更复杂的解决方法,是使用多层模型( multilevel models,又称分层模型 hierarchical models )

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,530评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 86,403评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,120评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,770评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,758评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,649评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,021评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,675评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,931评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,659评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,751评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,410评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,004评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,969评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,042评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,493评论 2 343

推荐阅读更多精彩内容