今天我们学习的是两独立样本t检验的思想和实际操作,其实在某些方面来看,独立样本t检验更像是单样本t检验的一种延伸。
为了方便对比,依旧选取前面单样本t检验提到过的案例。我们检测从事铅作业男性工人的血红蛋白含量,算得其均数为130.83g/L,标准差为25.74g/L,如果我们知道正常成年男性的血红蛋白含量均数是140g/L,想要知道铅作业男性工人的血红蛋白含量是否与正常成年男性不同,就是采用单样本t检验。但此时,如果正常成年男性的血红蛋白含量未知,我们必须再找一批正常成年男性作为样本,以两个人群的样本进行比较,进而推断其代表的总体是否有差异,这就是两独立样本t检验。
概念:
两独立样本t检验是在两个未知总体中抽取部分样本,通过统计推断,看两总体之间是否存在差异。
疑惑:
其实对于很多初学者来说,他们最大疑惑就是,为什么不能通过两个样本的数据直接比较,得出谁高谁低不就行了?用得着比较其对应的总体之间的差异么?有这种问题这就是还没有真正弄懂统计的含义。
比如上面的例子,铅作业男性工人的血红蛋白含量均数为130.83g/L,正常成年男性的血红蛋白含量均数是140g/L,一比较就能得出工人<正常人。但是要知道一个地区或者全国的铅作业工人数量巨大,正常人数量就更别说了,我们现在能获取的仅仅是这两大总体中的一小部分,如果只比较两个样本,难免不会让人信服,因为如果恰好抽到一部分正常人的血红蛋白较低,岂不是得到了与真实情况相反的结局,所以必须要考虑到抽样误差的存在。
抽样:
实际工作中,抽取样本通常有两种形式:
1、随机分组,随机分成两组,分别接受两种不同的处理
2、按某种属性分组,比如按性别分两组,分别接受两种不同的处理
总之不管怎么分,必须保证两组相互独立,不受影响。
使用条件:
一、两组样本必须是连续型变量
二、两组观测值相互独立
三、不存在明显异常值
四、服从正态分布或近似正态分布
五、方差齐
案例演示:(选自第4版 医学统计学)
实际操作:
一、异常值检查
图形-图形构建器-箱图-数值变量放入Y轴,分组变量放入X轴
由图可知,并无异常值。
二、检验正态性
两组样本均通过了正态性检验,可以进行独立样本t检验。不管是哪一类型的t检验,对数据的正态性要求都不是很严格,只要不是太偏,一般用t检验的方法效果都好于非参方法。
三、独立样本t检验
一、统计描述结果显示,拜糖平组降压效果优于阿卡波糖组,究竟是真实情况还是抽样误差,看接下来的统计推断。
二、看t检验之前,首先观察两组样本的方差齐不齐。结果显示P>0.05,由于H0:两组样本的方差齐,所以不能拒绝原假设。我们只需要看假定等方差那一行的数据就行;如果不齐,看下面不假定等方差那一行,因为软件已经为我们进行了校正。
在这我将介绍一个重要概念,为什么独立样本t检验必须要求方差齐,校正的含义是什么?
如果两组样本方差不齐,意味着这两组压根就不是一个量级,比较没意义(比如我们比较男女肺活量有无差异,这样的比较有意义么?男女的生理结构都不一致,同等年龄的综合水平下,男性肯定>女性),但结果我们还得看,所以看下面校正过的t’检验。
怎么去理解校正呢?
(比如男性就是比女性肺活量大,所以我们直接比较没意义,此时我们调整一下,让男生吹的时候吹一半或者2/3,女生全力吹)将一个样本校正到与另一个样本可比的水平,就是校正的意义。
三、方差齐,就看第一行的结果,P>0.05,还不能拒绝原假设,尚不能说明两组药在降糖效果方面存在差异,因为有可能存在抽样误差。
t检验的内容目前基本就学习完了(有些细节的我会随时补充),下一篇我会写为什么在使用t检验的时候要报告效应量指标?因为在我们投稿过程中,某些比较严格的杂志社会要求作者在使用t检验结果后面附带效应量指标,所以学习还是很有必要的。
之后我并不想按照传统统计书大纲接下来学习方差分析的内容,咱既然学习t检验,就要把t检验相关的都学个明白,直接开始学习非参数检验的方法,以应对不满足t检验的使用条件的情况。拜拜。