参数检验
** U检验**:
- 前提:在正太分布的样本均值u0和总体方差已知的情况下,双侧检验问题检验总体均值u=u0吗?
P(|u-u0|>k)=a;拒绝域就是|u-u0|>k,落在拒绝域的概率是a,是显著性水平。 - 怎么确定k值:引入了U统计量~N(0,1),计算,当u>ua的概率就是a,当a确定之后,ua是确定的,所以k也是确定的。但因为上面有绝对值,u-u0>k的概率和u-u0<-k的概率是a,那么对称性可知,一侧的概率是a/2
同理,单侧检验问题u<u0,那么拒绝域就是u-u0>k值,这个和上面是一样的,或者u>u0吗?这个拒绝域是(小并且小了很多)u-u0<-k。
可以写成更容易计算的形式:|u|>ua,是拒绝域,拒绝假设u=u0; - 应用: 检验两个正太分布的期望是否有显著差异;不过得总体方差已知,这个实际中大多方差都是不知道的
单样本的t检验
前提:在正太分布的样本均值已知u0和总体方差未知,检验总体均值u=u0吗?
和U检验类似,不过引入的是T统计量t(n-1),也是正好借助这个统计量中有的u-u0确定k。ta代表的是,t>ta的概率是a,用|t|>t(a/2)来表示双侧检验的拒绝域,用t>ta来表示单侧u<u0的拒绝域,t<-ta表示单侧u>u0的拒绝域
落在拒绝域:就是拒绝不等式成立,就代表假设不成立
怎么确定k值:对于单侧检验的话,u>u0,拒绝域u-u0<-k,因为P((u-u0)/S/sqrt(n)>ta)=a,所以t<-ta,
应用:看某个正态分布的期望是否为C,或者已知之前的平均值,现在一组实验看与之前平均值有无显著差异。例如:在excel中做单样本的t检验怎么做?
** 双样本的t检验**
前提:两组正太分布,相互独立。总体方差均未知。两组数据的均值是否相同?
确定拒绝域:假设u1-u2=0,拒绝域|u|>u(a/2).假设u1-u2>0,拒绝域为 u<-ua,假设u1-u2<0,拒绝域为u>ua
-
应用:看两组数的平均值是否存在显著差异。例如:可以在excel中“数据分析”中直接使用该工具。在excel中a指的是双尾检验时的a,单尾检验就变成2*a
为什么不直接比较两组数据的均值?,因为单单是计算两组数据平均值,这样的结论还不能令人信服,因为这个差距可能是因为抽样的随机性而来,不一定反映本质,所以要考虑用假设检验来处理这个问题。
-
excel中还会多两个t-检验,如下图:
大样本
在方差未知的情况下,可以用样本方差代替;T分布可以近似看成U分布。因为T的极限情况就是正太
** 两个样本方差检验(F检验)**
- 前提: 总体期望未知,样本方差已知,用样本方差代替总体方差,看S1和S2的比值。近似F(n1-1,n2-1).
- 拒绝域:假设o1=o2,则拒绝域是s1/s2>k1或者s1/s2<k2,因为F分布是不对称分布,因此k1=Fa,k2=F(1-a),双侧检验,所以显著性水平a也要除以2.
-
应用:在两组样本t检验之前,要先看两个方差是否有显著性差异,例如,在excel中如下:
** 单个样本的方差检验(卡方检验)**
- 前提:正太分布的样本,总体均值未知,样本方差S已知
- 确定拒绝域:引入了X2统计量,S和o2的比值,比值小于k1或者大于k2.
- 应用:用来看观察值与理论值的偏差
分布检验
- 分布检验的假设
H0:X的分布函数为F(x);将该假设转化为H0总体值在区间Ii内的概率为pi - 正太分布检验
先计算这个区间的理论概率p(Ua-U(a-1)),频数就是np,在一组样本中我们知道每个区间内数据的频数a,用卡方检验如果X(计算出来)>Xa(查表得到),则可以认为服从正太分布。X计算公式特别像一个误差计算 - 应用:在参数估计和假设检验中往往是假定某组数服从正太分布,但实际中我们往往不知道某组数的分布情况,因此必须先根据样本对总体分布进行检验。
例如在SPSS里面有P-P图(正太概率图)、QQ图,还有KS检验
辅助检验方法:1)观察正态概率图,如果数据来自正态分布,图形的散点应该呈现一条直线。2)绘制数据的条形图,如果数据来自正态分布,条形图呈现“钟形”分布。3)观察描述性统计量中偏度系数(Skewness)g1和峰度系数(Kurtosis)g2,如果数据来自正态分布,则两者都应该是0(适合大样本,仅当N>30时才有效)。
异常值检验
- 格布拉斯准则(G检验):总体要服从正太分布,样本量小,假设检验,G=(Xavg-Xmin)/标准差,再和表中对比。只能检测出来某个值是否为异常值,如果是的话,还要一直循环。
适用于小样本;但局限是,当同侧异常值较为接近时,效果不好。 - 拉依达准则:总体要服从正太分布,且样本量大(n必须大于10)。u+3o和u-3o的概率很小。这样可以得到一个最大最小值的临界点
-
箱图:总体不用服从正太分布。异常值区间(1/4相位点-1.5*(3/4-1/4相位点值),3/4相位点+1.5(3/4-1/4相位点值)),例如在excel中