中心极限定理
中心极限定理
假设我们有一个总体,我们从总体中取出一个大小为5的样本。我们可以利用这个样本均值、方差来估计总体的均值,方差。而如果我们不断地从总体中取出 n=5 的样本,然后每次都计算抽取样本的均值,就可以形成一个样本均值的抽样分布。
中心极限定理告诉我们,如果总体是呈现正态分布,或者样本的大小足够大,那么样本均值的抽样分布就会呈现正态分布。
可以见下图(图来源于Y叔的统计学笔记,文末给出链接)
可以看到,如果样本量足够大,哪怕总体是来源于一个再疯狂的分布,样本均值的抽样分布都会呈现一个正态分布,但如果样本量不够,则总体必须是正态分布,样本均值的抽样分布才是正态分布的。
多大算大呢,一般的thumb认为是30。当然,这也只是个经验。具体的大小还得依赖于你总体的分布。如果你总体的分布很像正态分布,自然样本量小点也可以达到效果。
标准误
对于单个样本而言,比如说我们取了5株苗。我们就会用标准差(standard deviation, SD)来衡量样本的离散程度。但对于我们上面提到的多个均值得到的分布(样本均值的抽样分布),我们也需要衡量分布的离散程度,这时候我们就会用标准误(Stand error,SE 或者说 standard error of the means,SEM)来衡量。样本均值抽样分布的标准误计算为:
即用总体的标准差除以样本量的平方根。但通常来说,我们是不知道总体的方差的,所以通常会用样本的方差来估计,那么
置信区间(confidence interval)
通常来说,我们会用总体参数的点估计(比如参数的均值)来代表我们对总体参数的估计。但实际上,度量一个点估计的精读更直观的方法就是给出未知参数的一个区间。我们通常会设定一个 值,把
叫做置信水平。比如我们通常会设置 95% 的置信水平。置信水平的频率解释就是,我们利用我们构建置信区间的方法,不断地重复构建置信区间,比如说构建1000次。这样我们就得到了1000个置信区间,每次得到的区间都是不一样的。置信区间是否包含我们总体参数(即真值)的结果是一个二元的,即包含或者不包含。这样最终差不多就会有950个置信区间包含了我们的真值,另外50个不包含真值。
可以看下面的图,每根线都是我们构建的置信区间。绿线代表包含了真值,红线代表没有包含真值。(图片来自:Data Analysis for the Life Sciences)
均值的置信区间
先放一段我个人认为的均值置信区间构建的原理,不保证正确。可以不看直接看后面置信区间的公式(公式考试的时候好像还是要写的):
我们设置95%为置信水平。我们从总体中得到的了一个样本均值,这个样本均值是样本均值抽样分布(假设是正态分布)的一个点。我们可以认为这个样本均值点应该是在距离真值95%范围内的。双侧95%的那个阈值点就是1.96,所以样本均值距离真值应该是1.96个标准误之内的
现在讲公式:
样本均值分布呈现正态分布的情况下,可以使用正态分布和t分布来估计置信区间,用哪种方法,取决于总体参数 σ 是否已知。
知道总体标准差的情况下,我们使用正态分布
就是所谓的critical value,跟你设置的置信水平有关系,比如你是95%的置信水平,双侧的话,就是一边在2.5%,一边在97.5%。那么就是-1.96和1.96了。
用R算critical value就是应用我们之前讲过的dpqr中的q了。
> qnorm(0.975)
[1] 1.959964
> qnorm(0.025)
[1] -1.959964
不知道总体标准差的情况下,我们使用 t 分布
之所以t分布的使用要满足样本均值分布呈现正态分布,是因为t分布的建立要求之一就是正态分布。具体可以去看概率论与数理统计的书。如果不满足这个条件,就不能使用t分布。
用 t 分布来计算置信区间的话,可以用R的t.test,会直接输出置信区间。
> data <- rnorm(20)
# 改下置信区间为90%
> t.test(data,conf.level = 0.9)
One Sample t-test
data: data
t = -0.59555, df = 19, p-value = 0.5585
alternative hypothesis: true mean is not equal to 0
90 percent confidence interval:
-0.5063434 0.2469069
sample estimates:
mean of x
-0.1297183
有可能还会要你算边际误差(margin of error,E,也称误差幅度)
边际误差就是所谓的
其实就是用来构建置信区间的。
当然,如果总体标准差不知道的话,就用样本标准差代替,分布变成t分布。
可以看到,如果想要降低E,即缩短置信区间,最稳妥的方法就是增大n。即提高样本容量。
比例的置信区间
这部分来自于Y叔的统计笔记。我感觉写的很直观,就直接放了。
比例的置信区间也差不多,公式在下面
其中 E 是边际误差, 是算出来的比例,而p是总体比例。E通过下面的式子
因为这种情况是符合二项分布的,而n有比较大,所以用正态分布来估计。
比如我们检测了829个成年人,51%反对修铁路。问总体上有大约多少是反对修铁路的。
首先,我们先检查这个二项分布是否符合正态分布的近似。发现,,
。的确是可以用来近似的。
然后就计算 E:
就可以算出置信区间了。
方差和标准差的置信区间
我们如果是拿样本的标准差来估计总体的标准差的置信区间,就要用到卡方分布。
假设我们从正态分布的总体中每次抽出样本量为n的样本,计算样本的方差。那么每次计算得到的
就会符合卡方分布。
因为卡方是不对称分布,所以置信区间也是不对称的,所以需要分别找出左侧和右侧的临界值。
假设我们抽取的n是100,那么自由度(degree of freedom)是99,我们要计算95%的置信区间,需要分别计算左侧0.025和右侧0.025的临界值:
> qchisq(0.975,99)
[1] 128.422
> qchisq(0.025,99)
[1] 73.36108
这两个值被称为卡方左右值,和
。那么标准差置信区间的计算就是
参考资料