给女朋友写的生统资料_Part11

中心极限定理

中心极限定理

假设我们有一个总体,我们从总体中取出一个大小为5的样本。我们可以利用这个样本均值、方差来估计总体的均值,方差。而如果我们不断地从总体中取出 n=5 的样本,然后每次都计算抽取样本的均值,就可以形成一个样本均值的抽样分布

中心极限定理告诉我们,如果总体是呈现正态分布,或者样本的大小足够大,那么样本均值的抽样分布就会呈现正态分布

可以见下图(图来源于Y叔的统计学笔记,文末给出链接)

11_1.png

可以看到,如果样本量足够大,哪怕总体是来源于一个再疯狂的分布,样本均值的抽样分布都会呈现一个正态分布,但如果样本量不够,则总体必须是正态分布,样本均值的抽样分布才是正态分布的。

多大算大呢,一般的thumb认为是30。当然,这也只是个经验。具体的大小还得依赖于你总体的分布。如果你总体的分布很像正态分布,自然样本量小点也可以达到效果。

标准误

对于单个样本而言,比如说我们取了5株苗。我们就会用标准差(standard deviation, SD)来衡量样本的离散程度。但对于我们上面提到的多个均值得到的分布(样本均值的抽样分布),我们也需要衡量分布的离散程度,这时候我们就会用标准误(Stand error,SE 或者说 standard error of the means,SEM)来衡量。样本均值抽样分布的标准误计算为:
\sigma_\bar{x}=SE=\frac{\sigma}{\sqrt{n}}
即用总体的标准差除以样本量的平方根。但通常来说,我们是不知道总体的方差的,所以通常会用样本的方差来估计,那么
s_{\bar{x}}=\frac{s}{\sqrt{n}}

置信区间(confidence interval)

通常来说,我们会用总体参数的点估计(比如参数的均值)来代表我们对总体参数的估计。但实际上,度量一个点估计的精读更直观的方法就是给出未知参数的一个区间。我们通常会设定一个 \alpha 值,把 1-\alpha 叫做置信水平。比如我们通常会设置 95% 的置信水平。置信水平的频率解释就是,我们利用我们构建置信区间的方法,不断地重复构建置信区间,比如说构建1000次。这样我们就得到了1000个置信区间,每次得到的区间都是不一样的。置信区间是否包含我们总体参数(即真值)的结果是一个二元的,即包含或者不包含。这样最终差不多就会有950个置信区间包含了我们的真值,另外50个不包含真值。

可以看下面的图,每根线都是我们构建的置信区间。绿线代表包含了真值,红线代表没有包含真值。(图片来自:Data Analysis for the Life Sciences)

11_2.png

均值的置信区间

先放一段我个人认为的均值置信区间构建的原理,不保证正确。可以不看直接看后面置信区间的公式(公式考试的时候好像还是要写的):

我们设置95%为置信水平。我们从总体中得到的了一个样本均值,这个样本均值是样本均值抽样分布(假设是正态分布)的一个点。我们可以认为这个样本均值点应该是在距离真值95%范围内的。双侧95%的那个阈值点就是1.96,所以样本均值距离真值应该是1.96个标准误之内的
-1.96\le\frac{\mu-\bar{x}}{\sigma_{x}}\le1.96

-1.96{\sigma_{x}} \le \mu-\bar{x} \le 1.96{\sigma_{x}}

-1.96{\sigma_{x}}+\bar{x} \le \mu \le 1.96{\sigma_{x}}+\bar{x}

现在讲公式:

样本均值分布呈现正态分布的情况下,可以使用正态分布和t分布来估计置信区间,用哪种方法,取决于总体参数 σ 是否已知。

知道总体标准差的情况下,我们使用正态分布
(\bar{x}-z_{\alpha/2}\frac{\sigma}{\sqrt{n}}) < \mu < (\bar{x}+z_{\alpha/2}\frac{\sigma}{\sqrt{n}})
Z_{\alpha/2}就是所谓的critical value,跟你设置的置信水平有关系,比如你是95%的置信水平,双侧的话,就是一边在2.5%,一边在97.5%。那么就是-1.96和1.96了。

用R算critical value就是应用我们之前讲过的dpqr中的q了。

> qnorm(0.975)
[1] 1.959964
> qnorm(0.025)
[1] -1.959964

不知道总体标准差的情况下,我们使用 t 分布
(\bar{x}-t_{\alpha/2}\frac{s}{\sqrt{n}}) < \mu < (\bar{x}+t_{\alpha/2}\frac{s}{\sqrt{n}})

之所以t分布的使用要满足样本均值分布呈现正态分布,是因为t分布的建立要求之一就是正态分布。具体可以去看概率论与数理统计的书。如果不满足这个条件,就不能使用t分布。

用 t 分布来计算置信区间的话,可以用R的t.test,会直接输出置信区间。

> data <- rnorm(20)

# 改下置信区间为90%
> t.test(data,conf.level = 0.9)

    One Sample t-test

data:  data
t = -0.59555, df = 19, p-value = 0.5585
alternative hypothesis: true mean is not equal to 0
90 percent confidence interval:
 -0.5063434  0.2469069
sample estimates:
 mean of x 
-0.1297183 

有可能还会要你算边际误差(margin of error,E,也称误差幅度)

边际误差就是所谓的
E=z_{\alpha/2}\sigma_{\bar{x}}=z_{\alpha/2}\frac{\sigma}{\sqrt{n}}

其实就是用来构建置信区间的。

当然,如果总体标准差不知道的话,就用样本标准差代替,分布变成t分布。
E=t_{\alpha/2}\frac{s}{\sqrt{n}}

可以看到,如果想要降低E,即缩短置信区间,最稳妥的方法就是增大n。即提高样本容量。

比例的置信区间

这部分来自于Y叔的统计笔记。我感觉写的很直观,就直接放了。

比例的置信区间也差不多,公式在下面
(\hat{p} - E) < p < (\hat{p} + E)
其中 E 是边际误差,\hat{p} 是算出来的比例,而p是总体比例。E通过下面的式子
E = z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}
因为这种情况是符合二项分布的,而n有比较大,所以用正态分布来估计。

比如我们检测了829个成年人,51%反对修铁路。问总体上有大约多少是反对修铁路的。

首先,我们先检查这个二项分布是否符合正态分布的近似。发现,n\hat{p}=422.79 > 5n\hat{q}=406.21 > 5。的确是可以用来近似的。

然后就计算 E:
E =1.96\sqrt{\frac{0.51*0.49}{829}}
就可以算出置信区间了。

方差和标准差的置信区间

我们如果是拿样本的标准差来估计总体的标准差的置信区间,就要用到卡方分布。

假设我们从正态分布的总体中每次抽出样本量为n的样本,计算样本的方差s^2。那么每次计算得到的\frac{(n-1)s^2}{\sigma^2}就会符合卡方分布。
\chi^2 = \frac{(n-1)s^2}{\sigma^2}
因为卡方是不对称分布,所以置信区间也是不对称的,所以需要分别找出左侧和右侧的临界值。

假设我们抽取的n是100,那么自由度(degree of freedom)是99,我们要计算95%的置信区间,需要分别计算左侧0.025和右侧0.025的临界值:

> qchisq(0.975,99)
[1] 128.422
> qchisq(0.025,99)
[1] 73.36108

这两个值被称为卡方左右值,\chi_{L}^2\chi_{R}^2。那么标准差置信区间的计算就是
\sqrt{\frac{(n-1)s^2}{\chi_{R}^2}} < \sigma < \sqrt{\frac{(n-1)s^2}{\chi_{L}^2}}

参考资料

Y叔的统计笔记

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容