在样本统计分析中,假设检验是最常见的一种数据分析形式,也是样本分析中必不可缺的一部分。今天我们就从数据分析中的假设检验开始来分析下基于有限样本的假设检验方法。
首先,我们知道这一假设检验是基于有限样本的,因而样本的特性和样本本身的偏差对于假设的影响是非常大的。所以,未来解决这一麻烦,某一天才数学家(好吧 ,我忘了是谁。-_-||)想出了一个办法来解决这一问题:Bootstrap方法。Bootstrap方法分为两种,非参数Bootstrap方法和参数Bootstrap方法。它们的区别是为了解决假设检验中总体样本分布是否含有未知参数,有未知参数则采用参数的Bootstrap方法,没有参数就采用非参数Bootstrap方法。
好的,那么问题来了。既然Bootstrap方法这么重要,那什么是Bootstrap方法呢?
分开说,所谓非参数bootstrap方法:设总体分布F未知,但是已经得到一个容量为n的来自F的数据样本,自这一样本按放回抽样的方法抽取一个容量为n的样本,这种样本被称为bootstrap样本。相继地,独立地自原始样本中取多个Bootstrap样本的方法被称为非参数的Boostrap方法
参数bootstrap方法:已知研究总体的分布为F(x;p),p未知。现在有一个来自F(x;p)的样本:X1,X2,X3,....,Xn。利用这一样本在F(x;p)下求出p的最大似然估计p^,再以F(x;p^)产生足够多(>1000)的样本,并以这些样本再进行非参数的bootstrap方法统计分析,称为参数bootstrap方法
它们的目的就是在于解决实验样本系统性偏差(虽然并不能完全解决,(=_=)!!),并减少非系统性偏差。
接下来,假设!在解决了样本的问题之后,我们继续回到假设检验中。既然是假设检验,那么第一步就应该是假设,那我们怎么假设呢?
要回答这个问题就需要知道,到底有哪些数据(随机变量)分布方式?它们都有什么特点?
随机变量的基础分布主要有五种(注意,是基础分布。):均匀分布、二项分布、指数分布、泊松分布、正态分布。在这五种随机变量分布中均匀分布和二项分布一般应用的场景比较简单,所以呢,此处不做介绍。这里我们重点来讨论正态分布、泊松分布和指数分布。
泊松分布:泊松分布:(λ^k)Exp(-k)/(K!), 描述单位时间/空间内,某一随机事件的发生次数;
指数分布:F(x)=aExp(-aX) , 一般用于设备可靠性,概率事件发生可能性的研究和描述;
正态分布:N(μ,σ2) , 描述随机变量的样本数据集中于均值并随方差而波动;
所以,在得到Bootstrap样本数据后,我们应该首先根据所选择的事件本身的特征,决定应该选取的假设分布。单位时间/空间内的研究采用泊松分布,概率发生事件采用正态分布,设备可靠性以及事情在未来一段时间内发生的可能性等的研究则采用指数分布进行假设。
好的,接下来就是本文的重点了——假设检验。在确定了样本,并且做出假设后就该是本文的主题了,假设检验。
假设检验的核心原理是小概率反证法思想。小概率思想是指小概率事件(P<0.01或P<0.05)在一次试验中基本上不会发生。反证法思想是先提出原假设Ho及其备择假设H1,在显著性水平为a的条件下,确定该假设的拒绝域,一般其拒绝域为原假设与备择假设的差值,若其大于显著性水平则为拒绝原假设。
无偏性准则:这是假设检验中最重要的原则,要求检验在备择假设h1成立时作出正确判断的概率不小于检验水平α,这就是说在h0不成立时拒绝h0的概率要不小于在h0成立时拒绝h0的概率,这种性质称为无偏性,具有这种性质的检验称为无偏检验。
基于不同的样本数据和总体分布,主要有以下几种检验方法:Z-检验法、T-检验法、卡方检验、F-检验法、秩和检验等
其中Z-检验法:是一种基于大样本的正态分布假设检验方法,条件是已知总体方差,期望,并且得到大样本(样本数大于30)时的假设检验
其检验原理如下,对某一服从正态分布的样本X1、X2、X3.....Xn,其期望为Xa,方差为S2。则其总体的期望为Xo,总体方差为σ2,在显著性水平为α的条件下存在等式:T=|(Xa-Xo)/(α/√n)|,拒绝域为T>=Tα,Tα=Φ(α/2)
T-检验法:是指在已知总体期望,及样本的期望、方差对总体进行假设检验。拒绝域为To=|X-Xa|/(σ/√n)>=T(α/2)[n-1],假设检验的判断 依据是T分布(在接下来的复杂分布中会讲到的)
χ-检验(也就是所谓的卡方检验):已知总体方差σ2、样本方差S2及样本均值μ,且总体均值μ0未知,其拒绝域为:χ^2o=(n-1)S^2/σ2>=χ2(α/2)[n-1],其拒绝域的判断依据χ^2分布(卡方分布)。
秩和检验:暂时不讲,下篇文章说。
以上即是假设检验的最初步的知识,接下来分析下假设检验中常见的几种复杂的分布,一般也用于对事件的复合分析。
χ分布:χ2=χ2(n),一般用于描述多个随机变量分布的线性相加之和
T分布:T=X/√(Y/n) , X=N(0,1) ; Y=χ2(n) , 一般用于描述变量X对于事件Y的影响程度
F分布:F=(U/n1)/(V/n2) , U=χ2(n1) , V=χ2(n2); 一般用于描述不同变量对于事件发生的影响程度
OK,时间有限,这篇文章就这么多吧!接下来应该会以数据分析写一整个的系列文章,希望可以在这个过程中收获更多!