1. 说明
接上次的《几种常见的数学分布》。这次说说T分布和T检验,用词不够严谨,大家就领会精神为主吧~
2. 什么是抽样
如果整体样本可以一个一个判断叫普查,如果整体样本太多,没法一个一个判断,只能取一部分代表整体,叫抽样。
比如说,一个班有20个人,我们可以把所有人的身高加一起,除以人数,计算均值,如果有2000000人,就无法把所有人身高都统计一遍再除以总数,一般情况下,就是取其中一部分,计算其均值,认为他们能代表全部。
3. 正态分布
先复习一下正态分布,比如说女人的身高一般在160左右,150, 170的比较少,140,180的更少,把身高当做横轴,人数作为纵轴画图,就可看到一个中间高两边低的钟形曲线,也就是正态分布。
那什么不是正态分布呢?比如人的空腹血糖一般在4-6之间,而血糖高的7,8,9的很多,而低到3,2,1的就很少,不样一边多一边少的,就不是正态分布。
4. 正态分布和T分布
如果只有20个人画一下算一下,就是正态分布;如果有2000000人,从中随机取出20个,画一图也就钟形,就叫T分布。它俩的不同就在于,一个是抽样的,一个是全体的。规律都是中间高两边低对称的样子。当取样趋于无穷大时,T分布就是正态分布,但一般都没法取太多。
5. 假设检验
如果有2000000个女的,你认为她们的身高是正态分布,均值160(称理论值或标准值μ0),然后从中随机选了20个人,平均身高161(μ),标准差为5(上下浮动),那她们是否适合你所定义的正态分布均值160的规律呢?
由样本信息对相应总体的特征进行推断称为统计推断。若对所估计的总体首先提出一个假设(平均身高160),然后通过样本数据(20个人)去推断是否拒绝这一假设,称为假设检验,如果符合这个假设就是H0(无效假设null hypothesis),如果不符合就是H1(备择假设alternative hypothesis)。
6. T检验
以T分布为基础的检验叫T检验。这里主要是判断一组样本是否符合我们设定的“统计推断”。 将上例中的值代入公式,如果这20人的平均身高为161,求t值。
如果这20人的平均身高为164
可以看出t值的大小与抽样的均值161,标准差5,样本数20,以及统计推断160相关。
7. 如何查表
H0成立时t服从自由度v=n-1=19的t分布,查表如下:
上面的0.05和0.025又是什么呢?是p值(p-value),p=0.05意味着样本统计有95%的信心拒绝原假设,就是说p越小,原假设越可能被拒绝,一般p设成0.05,自由度19时,它对应的t值为2.093。
当采样的20人平均身高为161时,t=0.894<2.093,即H0成立(抽样符合假设),当平均身高为164时,t=3.578>2.093,则H1成立(即这组抽样不符合假设)。
就是说t差得越多,t是因为误差造成的可能性p越小,既然不是因为误差,那就是因为本质不同,所以不符合假设。
8. 单侧和双侧检验
那上边为什么还有0.05和0.1的差别呢?它分别对应单侧和双侧检验。 理论值μ0(160),抽样均值μ(161)。
双测检验值:
μ≠μ0 (μ >μ0或μ<μ0)
单测检验值:
μ>μ0 (根据专业角度,μ不可能小于μ0)
μ<μ0 (根据专业角度,μ不可能大于μ0)
通常我们用的都是双侧t检验,上例中用的也是双边的p值0.05对应的t值。
9. T检验的应用条件
要符合t检验的条件,才能计算t检验的统计值
(1) 必须是随机样本且相互独立
比如抽得出自一个家庭,就只能统计这一家的,不能代表全国的。
(2) 来自正态分布的总体
正态分布是一种特殊的T分布,判断正态分布的方法有很多,比如Shapiro- Wilk (W检验)用于3-50个的小样本,Kolmogorov-Smirnov检验(D检验)用于小于5000的样本量,大于2000可做直方图,观察是否正态分布。
(3)方差齐性
均数比较时,要求两总体方差相等