基于有限样本的假设检验方法分析

在样本统计分析中,假设检验是最常见的一种数据分析形式,也是样本分析中必不可缺的一部分。今天我们就从数据分析中的假设检验开始来分析下基于有限样本的假设检验方法。

首先,我们知道这一假设检验是基于有限样本的,因而样本的特性和样本本身的偏差对于假设的影响是非常大的。所以,未来解决这一麻烦,某一天才数学家(好吧 ,我忘了是谁。-_-||)想出了一个办法来解决这一问题:Bootstrap方法。Bootstrap方法分为两种,非参数Bootstrap方法和参数Bootstrap方法。它们的区别是为了解决假设检验中总体样本分布是否含有未知参数,有未知参数则采用参数的Bootstrap方法,没有参数就采用非参数Bootstrap方法。

好的,那么问题来了。既然Bootstrap方法这么重要,那什么是Bootstrap方法呢?

分开说,所谓非参数bootstrap方法:设总体分布F未知,但是已经得到一个容量为n的来自F的数据样本,自这一样本按放回抽样的方法抽取一个容量为n的样本,这种样本被称为bootstrap样本。相继地,独立地自原始样本中取多个Bootstrap样本的方法被称为非参数的Boostrap方法

参数bootstrap方法:已知研究总体的分布为F(x;p),p未知。现在有一个来自F(x;p)的样本:X1,X2,X3,....,Xn。利用这一样本在F(x;p)下求出p的最大似然估计p^,再以F(x;p^)产生足够多(>1000)的样本,并以这些样本再进行非参数的bootstrap方法统计分析,称为参数bootstrap方法

它们的目的就是在于解决实验样本系统性偏差(虽然并不能完全解决,(=_=)!!),并减少非系统性偏差。

接下来,假设!在解决了样本的问题之后,我们继续回到假设检验中。既然是假设检验,那么第一步就应该是假设,那我们怎么假设呢?

要回答这个问题就需要知道,到底有哪些数据(随机变量)分布方式?它们都有什么特点?

随机变量的基础分布主要有五种(注意,是基础分布。):均匀分布、二项分布、指数分布、泊松分布、正态分布。在这五种随机变量分布中均匀分布和二项分布一般应用的场景比较简单,所以呢,此处不做介绍。这里我们重点来讨论正态分布、泊松分布和指数分布。

泊松分布:泊松分布:(λ^k)Exp(-k)/(K!),   描述单位时间/空间内,某一随机事件的发生次数;

指数分布:F(x)=aExp(-aX) ,     一般用于设备可靠性,概率事件发生可能性的研究和描述;

正态分布:N(μ,σ2)  ,  描述随机变量的样本数据集中于均值并随方差而波动;

所以,在得到Bootstrap样本数据后,我们应该首先根据所选择的事件本身的特征,决定应该选取的假设分布。单位时间/空间内的研究采用泊松分布,概率发生事件采用正态分布,设备可靠性以及事情在未来一段时间内发生的可能性等的研究则采用指数分布进行假设。

好的,接下来就是本文的重点了——假设检验。在确定了样本,并且做出假设后就该是本文的主题了,假设检验。

假设检验的核心原理是小概率反证法思想。小概率思想是指小概率事件(P<0.01或P<0.05)在一次试验中基本上不会发生。反证法思想是先提出原假设Ho及其备择假设H1,在显著性水平为a的条件下,确定该假设的拒绝域,一般其拒绝域为原假设与备择假设的差值,若其大于显著性水平则为拒绝原假设。

无偏性准则:这是假设检验中最重要的原则,要求检验在备择假设h1成立时作出正确判断的概率不小于检验水平α,这就是说在h0不成立时拒绝h0的概率要不小于在h0成立时拒绝h0的概率,这种性质称为无偏性,具有这种性质的检验称为无偏检验。

基于不同的样本数据和总体分布,主要有以下几种检验方法:Z-检验法、T-检验法、卡方检验、F-检验法、秩和检验等

其中Z-检验法:是一种基于大样本的正态分布假设检验方法,条件是已知总体方差,期望,并且得到大样本(样本数大于30)时的假设检验

其检验原理如下,对某一服从正态分布的样本X1、X2、X3.....Xn,其期望为Xa,方差为S2。则其总体的期望为Xo,总体方差为σ2,在显著性水平为α的条件下存在等式:T=|(Xa-Xo)/(α/√n)|,拒绝域为T>=Tα,Tα=Φ(α/2)

T-检验法:是指在已知总体期望,及样本的期望、方差对总体进行假设检验。拒绝域为To=|X-Xa|/(σ/√n)>=T(α/2)[n-1],假设检验的判断 依据是T分布(在接下来的复杂分布中会讲到的)

χ-检验(也就是所谓的卡方检验):已知总体方差σ2、样本方差S2及样本均值μ,且总体均值μ0未知,其拒绝域为:χ^2o=(n-1)S^2/σ2>=χ2(α/2)[n-1],其拒绝域的判断依据χ^2分布(卡方分布)。

秩和检验:暂时不讲,下篇文章说。

以上即是假设检验的最初步的知识,接下来分析下假设检验中常见的几种复杂的分布,一般也用于对事件的复合分析。

χ分布:χ2=χ2(n),一般用于描述多个随机变量分布的线性相加之和

T分布:T=X/√(Y/n)  ,  X=N(0,1)  ;    Y=χ2(n)    ,  一般用于描述变量X对于事件Y的影响程度

F分布:F=(U/n1)/(V/n2)   ,   U=χ2(n1)    ,  V=χ2(n2);   一般用于描述不同变量对于事件发生的影响程度

OK,时间有限,这篇文章就这么多吧!接下来应该会以数据分析写一整个的系列文章,希望可以在这个过程中收获更多!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,732评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,496评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,264评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,807评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,806评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,675评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,029评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,683评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,704评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,666评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,773评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,413评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,016评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,204评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,083评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,503评论 2 343

推荐阅读更多精彩内容