与标准误相关联的一些知识点
中心极限定理
定义:假定有一个总体数据,从该总体中多次抽样,理论上名称抽样所得到的统计量与总体参数应该差别不大,大致围绕在总体参数中心,并且呈正态分布
每次抽样的样本量越大,计算出的均数(参数)越接近总体均数(总体参数)
注意中心极限定理是针对统计量的,不是针对原始数据的
抽样分布
定义:假定有一个总体数据,从该总体中多次抽样,其构成的分布为抽样分布
对于抽样分布而言,有专门的称呼来命名均值(统计量)和标准差,分别称为均值的期望值和标准误
统计学中把总体的指标统称为参数。而由样本算得的相应的总体指标称为统计量。
标准误
标准误可以理解为对样本的均值(统计量)代表总体均值(参数)的确信程度。换而言之,标准误测量了样本统计量代表更大总体参数的预期误差。这正是称之为“标准误”的原因
在实际情况中,为了从单个样本中推断总体,研究者必须尽可能地利用样本信息对总体做出有根据的猜测或估计,那么这种估计的预期误差有多大?换而言之,标准误有多大?
回答上面这个问题需要考察样本的2个特征
样本的大小,样本越大,标准误越小
标准差,标准差越大,标准误越大(标准差提示了变异程度)
根据标准误公式可以发现,样本/总体标准差以及样本容量是决定标准误的核心因素
通过总结我们可以发现,大量的推断统计量,都会用到某种类型的标准误。许多他的统计量回答的问题是:与随机选取相同容量不同样本的预期变异(或误差)相比,样本统计量是大还是小,即:
[图片上传失败...(image-19ce79-1596508859988)]
”随机“一词指的是样本取值在分布尾部的机会
换而言之,标准误常用于推断统计量,以测量样本统计值相对于不同随机样本统计值平均差异的大小
标准误越小,像z分数和t值之类的统计量就越大(因为分值相等的情况下,分母越小,整个分式的值越大,统计值越大),研究者越有可能判定样本表明一种有意义的,或者统计显著的效应。
因此在其他条件相同的情况下,样本容量越大,标准误越小,越有可能得到统计显著的结果
正态分布和t分布
当自由度≥30时,t分布的图像和正态分布十分接近,当自由度≥50时,t分布的图像和正态分布几乎无差别
当总体标准差已知,可以用正态分布。当总体标准差未知,或者样本容量较小时,就应该用t分布。
正态性检验
1.基于峰度和偏度的SW检验
2.基于拟合优度的KS、CVM、AD检验
SW检验
其思想是基于偏离峰度或/和偏度
峰度(kurtosis)就是分布形状是平坦还是尖峰,是从上下维度来说明分布是否符号正态分布。峰度大于0,提示为尖峰,反之,为平坦峰
偏度(skewness)反映了分布形状是否对称,从左右维度来说明分布是否符号正态分布。偏度大于0,提示为右偏态(正偏态),反之,则为左偏态(负偏态)
- 正偏态分布大部分取值集中在较小一端,且其均值大于中位数Me
- 负偏态分布大部分取值集中在较大一端,且其均值小于中位数Me
SW检验反映了基于偏离峰度或/和偏度对正态分布的偏离程度,该值介于1~0之间,越接近于1,说明越符合正态分布;越接近0,说明越偏离正态分布。
该法最初只用于n=3—50之间,后经Royston多次改进,将之扩大到n=2000—5000之间
对图中的x和y变量进行SW检验,结果分别为W=0.869(P<0.001)和W=0.986(P=0.01),说明相对而言,y变量更接近正态分布
KS、CVM、AD检验
基于拟和优度的思想,计算理论(正态)分布与基于数据得到的(正态)分布之间的差异,通俗来说就是,(正态)分布应该有一种形状,而实际数据又是一种形状,比较这两个形状是不是一样的。
以上方法不仅适合正态分布的拟合,也可用于其他分布的拟合优度检验
基本思路:
①先求出正态分布的累积概率函数(CDF)
②对比一下样本数据与该函数的差别有多大
③如果二者的差别较小,则说明样本数据的分布接近正态分布,可认为服从正态分布,如果差别较大,则说明样本数据可能不服从正态分布
KS、CVM、AD检验都是基于上面这种思想,区别主要在于对”差别“的定义
KS定义理论分布与实际数据分布的差别是绝对值形式
CVM法是平方的形式
AD法则对CVM法进一步做出了改进
图中较光滑的粗线表示理论的CDF, 粗糙的细线表示实际数据的CDF。可以看出,左边x变量的差别更大一些,而右边y变量的差别小一些。
关于检验方法的选择
Razali(2011)等曾经对这4种方法进行模拟,结果显示,如果n≤2000,则SW检验效率最高,一般建议首选;而基于拟和优度思想的3种检验方法中,AD法效率最高,KS法效率最低。以上模拟结果可以作为参考
其实从对上图中的变量y的检验结果中也可以看出, KS检验在0.05的检验水准上无统计学意义(不能推翻“满足正态分布"的无效假设),而SW和AD法均有统计学意义(认为不满足正态分布)。这说明SW和AD法更容易检测出对正态分布的偏离。(SW法图片未给出)
给出R的代码
##首先构建一个数据框
library(MASS)
mu<- c(0,0,0)
Sigma<- matrix(c(1,0.5,0.25,0.5,1,0.5, 0.25,0.5,1),3,3)
M<- mvrnorm(1000, mu, Sigma)
##SW检验
shapiro.test(M)
##敲黑板,一定要记得设置镜像
options(BioC_mirror="http://mirrors.ustc.edu.cn/bioc/")
options("repos" = c(CRAN="http://mirrors.tuna.tsinghua.edu.cn/CRAN/"))
install.packages("nortest")
library(nortest)
##KS检验
lillie.test(M)
##AD检验
ad.test(M)
##CVM检验
cvm.test(M)
##简化的SW检验,即SF检验
sf.test(M)
同时也可以参考这个网址R中三种检验正态分布的方式,这里面采用的是描述的方法来判断正态性,也可以参考笔者的笔记
[参考内容]
白话统计学——冯国双
白话统计学——蒂莫西