登录注册写文章

数据分析入门-假设检验

数据分析入门-假设检验

参数检验

** U检验**：

前提：在正太分布的样本均值u0和总体方差已知的情况下，双侧检验问题检验总体均值u=u0吗？
P(|u-u0|>k)=a；拒绝域就是|u-u0|>k，落在拒绝域的概率是a，是显著性水平。
怎么确定k值：引入了U统计量~N(0,1)，计算，当u>ua的概率就是a，当a确定之后，ua是确定的，所以k也是确定的。但因为上面有绝对值，u-u0>k的概率和u-u0<-k的概率是a，那么对称性可知，一侧的概率是a/2
同理，单侧检验问题u<u0,那么拒绝域就是u-u0>k值，这个和上面是一样的，或者u>u0吗？这个拒绝域是（小并且小了很多）u-u0<-k。
可以写成更容易计算的形式：|u|>ua,是拒绝域，拒绝假设u=u0；
应用：检验两个正太分布的期望是否有显著差异；不过得总体方差已知，这个实际中大多方差都是不知道的

单样本的t检验

前提：在正太分布的样本均值已知u0和总体方差未知，检验总体均值u=u0吗？
和U检验类似，不过引入的是T统计量t（n-1），也是正好借助这个统计量中有的u-u0确定k。ta代表的是，t>ta的概率是a,用|t|>t(a/2)来表示双侧检验的拒绝域，用t>ta来表示单侧u<u0的拒绝域，t<-ta表示单侧u>u0的拒绝域
落在拒绝域：就是拒绝不等式成立，就代表假设不成立
怎么确定k值：对于单侧检验的话，u>u0,拒绝域u-u0<-k,因为P((u-u0)/S/sqrt(n)>ta)=a,所以t<-ta,
应用：看某个正态分布的期望是否为C，或者已知之前的平均值，现在一组实验看与之前平均值有无显著差异。例如：在excel中做单样本的t检验怎么做？
Paste_Image.png

** 双样本的t检验**

前提：两组正太分布，相互独立。总体方差均未知。两组数据的均值是否相同？
确定拒绝域：假设u1-u2=0，拒绝域|u|>u(a/2).假设u1-u2>0,拒绝域为 u<-ua，假设u1-u2<0,拒绝域为u>ua
应用：看两组数的平均值是否存在显著差异。例如：可以在excel中“数据分析”中直接使用该工具。在excel中a指的是双尾检验时的a，单尾检验就变成2*a

Paste_Image.png
为什么不直接比较两组数据的均值？，因为单单是计算两组数据平均值，这样的结论还不能令人信服，因为这个差距可能是因为抽样的随机性而来，不一定反映本质，所以要考虑用假设检验来处理这个问题。
excel中还会多两个t-检验，如下图：

Paste_Image.png
大样本
在方差未知的情况下，可以用样本方差代替；T分布可以近似看成U分布。因为T的极限情况就是正太

** 两个样本方差检验（F检验）**

前提：总体期望未知，样本方差已知，用样本方差代替总体方差，看S1和S2的比值。近似F（n1-1，n2-1）.
拒绝域：假设o1=o2，则拒绝域是s1/s2>k1或者s1/s2<k2,因为F分布是不对称分布，因此k1=Fa，k2=F(1-a)，双侧检验，所以显著性水平a也要除以2.
应用：在两组样本t检验之前，要先看两个方差是否有显著性差异，例如，在excel中如下：

Paste_Image.png

** 单个样本的方差检验（卡方检验）**

前提：正太分布的样本，总体均值未知，样本方差S已知
确定拒绝域：引入了X2统计量，S和o2的比值，比值小于k1或者大于k2.
应用：用来看观察值与理论值的偏差

分布检验

分布检验的假设
H0：X的分布函数为F（x）；将该假设转化为H0总体值在区间Ii内的概率为pi
正太分布检验
先计算这个区间的理论概率p（Ua-U(a-1)），频数就是np,在一组样本中我们知道每个区间内数据的频数a，用卡方检验如果X(计算出来)>Xa(查表得到)，则可以认为服从正太分布。X计算公式特别像一个误差计算
应用：在参数估计和假设检验中往往是假定某组数服从正太分布，但实际中我们往往不知道某组数的分布情况，因此必须先根据样本对总体分布进行检验。
例如在SPSS里面有P-P图（正太概率图）、QQ图，还有KS检验

辅助检验方法：1）观察正态概率图，如果数据来自正态分布，图形的散点应该呈现一条直线。2）绘制数据的条形图，如果数据来自正态分布，条形图呈现“钟形”分布。3）观察描述性统计量中偏度系数（Skewness）g1和峰度系数（Kurtosis）g2，如果数据来自正态分布，则两者都应该是0（适合大样本，仅当N>30时才有效）。

异常值检验

格布拉斯准则（G检验）：总体要服从正太分布，样本量小，假设检验，G=（Xavg-Xmin）/标准差，再和表中对比。只能检测出来某个值是否为异常值，如果是的话，还要一直循环。
适用于小样本；但局限是，当同侧异常值较为接近时，效果不好。
拉依达准则：总体要服从正太分布，且样本量大（n必须大于10）。u+3o和u-3o的概率很小。这样可以得到一个最大最小值的临界点
箱图：总体不用服从正太分布。异常值区间（1/4相位点-1.5*（3/4-1/4相位点值），3/4相位点+1.5（3/4-1/4相位点值）），例如在excel中

Paste_Image.png

最后编辑于：2017.12.04 01:19:13

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

【Excel系列】Excel数据分析：假设检验
Excel数据分析工具库中假设检验含5个知识点： Z-检验：双样本均值差检验T-检验：平均值的成对二样本检验T-检...
数据科学社区阅读 36,498评论 2赞 9
《R语言与统计分析》的读书笔记
《R语言与统计分析》的读书笔记本书的重点内容及感悟: 第三章概率与分布 1、随机抽样通过sample()来实...
格式化_001阅读 6,751评论 1赞 12
《数据分析的统计基础》的读书笔记
《数据分析的统计基础》的读书笔记作者：经管之家、曹正凤出版社：电子工业出版社版次：2015年2月第1...
格式化_001阅读 9,898评论 1赞 58
互联网+会计=？
互联网＋地摊＝淘宝互联网＋保安＝360 互联网＋媒婆＝珍爱网互联网＋会计＝？？今天在知乎上面回答了一个问题“...
表姐说会计阅读 330评论 0赞 1
温和的力量最强大
很久没有写东西了。觉得对现在的自己，并不是一种很满意的状态。总是想着，等自己本质上或者某种意义上真正有所成长了了，...
冯敏阅读 1,864评论 1赞 1

8赞9赞

赞赏

手机看全文