给女朋友写的生统资料_Part11

中心极限定理

假设我们有一个总体，我们从总体中取出一个大小为5的样本。我们可以利用这个样本均值、方差来估计总体的均值，方差。而如果我们不断地从总体中取出 n=5 的样本，然后每次都计算抽取样本的均值，就可以形成一个样本均值的抽样分布。

中心极限定理告诉我们，如果总体是呈现正态分布，或者样本的大小足够大，那么样本均值的抽样分布就会呈现正态分布。

可以见下图（图来源于Y叔的统计学笔记，文末给出链接）

11_1.png

可以看到，如果样本量足够大，哪怕总体是来源于一个再疯狂的分布，样本均值的抽样分布都会呈现一个正态分布，但如果样本量不够，则总体必须是正态分布，样本均值的抽样分布才是正态分布的。

多大算大呢，一般的thumb认为是30。当然，这也只是个经验。具体的大小还得依赖于你总体的分布。如果你总体的分布很像正态分布，自然样本量小点也可以达到效果。

标准误

对于单个样本而言，比如说我们取了5株苗。我们就会用标准差（standard deviation, SD）来衡量样本的离散程度。但对于我们上面提到的多个均值得到的分布（样本均值的抽样分布），我们也需要衡量分布的离散程度，这时候我们就会用标准误（Stand error，SE 或者说 standard error of the means，SEM）来衡量。样本均值抽样分布的标准误计算为：
$\sigma_\bar{x}=SE=\frac{\sigma}{\sqrt{n}}$
即用总体的标准差除以样本量的平方根。但通常来说，我们是不知道总体的方差的，所以通常会用样本的方差来估计，那么
$s_{\bar{x}}=\frac{s}{\sqrt{n}}$

置信区间（confidence interval）

通常来说，我们会用总体参数的点估计（比如参数的均值）来代表我们对总体参数的估计。但实际上，度量一个点估计的精读更直观的方法就是给出未知参数的一个区间。我们通常会设定一个 $\alpha$ 值，把 $1-\alpha$ 叫做置信水平。比如我们通常会设置 95% 的置信水平。置信水平的频率解释就是，我们利用我们构建置信区间的方法，不断地重复构建置信区间，比如说构建1000次。这样我们就得到了1000个置信区间，每次得到的区间都是不一样的。置信区间是否包含我们总体参数（即真值）的结果是一个二元的，即包含或者不包含。这样最终差不多就会有950个置信区间包含了我们的真值，另外50个不包含真值。

可以看下面的图，每根线都是我们构建的置信区间。绿线代表包含了真值，红线代表没有包含真值。（图片来自：Data Analysis for the Life Sciences）

11_2.png

均值的置信区间

先放一段我个人认为的均值置信区间构建的原理，不保证正确。可以不看直接看后面置信区间的公式（公式考试的时候好像还是要写的）：

我们设置95%为置信水平。我们从总体中得到的了一个样本均值，这个样本均值是样本均值抽样分布（假设是正态分布）的一个点。我们可以认为这个样本均值点应该是在距离真值95%范围内的。双侧95%的那个阈值点就是1.96，所以样本均值距离真值应该是1.96个标准误之内的
$-1.96\le\frac{\mu-\bar{x}}{\sigma_{x}}\le1.96$

$-1.96{\sigma_{x}} \le \mu-\bar{x} \le 1.96{\sigma_{x}}$

$-1.96{\sigma_{x}}+\bar{x} \le \mu \le 1.96{\sigma_{x}}+\bar{x}$

现在讲公式：

样本均值分布呈现正态分布的情况下，可以使用正态分布和t分布来估计置信区间，用哪种方法，取决于总体参数 σ 是否已知。

知道总体标准差的情况下，我们使用正态分布
$(\bar{x}-z_{\alpha/2}\frac{\sigma}{\sqrt{n}}) < \mu < (\bar{x}+z_{\alpha/2}\frac{\sigma}{\sqrt{n}})$
$Z_{\alpha/2}$ 就是所谓的critical value，跟你设置的置信水平有关系，比如你是95%的置信水平，双侧的话，就是一边在2.5%，一边在97.5%。那么就是-1.96和1.96了。

用R算critical value就是应用我们之前讲过的dpqr中的q了。

> qnorm(0.975)
[1] 1.959964
> qnorm(0.025)
[1] -1.959964

不知道总体标准差的情况下，我们使用 t 分布
$(\bar{x}-t_{\alpha/2}\frac{s}{\sqrt{n}}) < \mu < (\bar{x}+t_{\alpha/2}\frac{s}{\sqrt{n}})$

之所以t分布的使用要满足样本均值分布呈现正态分布，是因为t分布的建立要求之一就是正态分布。具体可以去看概率论与数理统计的书。如果不满足这个条件，就不能使用t分布。

用 t 分布来计算置信区间的话，可以用R的t.test，会直接输出置信区间。

> data <- rnorm(20)

# 改下置信区间为90%
> t.test(data,conf.level = 0.9)

    One Sample t-test

data:  data
t = -0.59555, df = 19, p-value = 0.5585
alternative hypothesis: true mean is not equal to 0
90 percent confidence interval:
 -0.5063434  0.2469069
sample estimates:
 mean of x 
-0.1297183

有可能还会要你算边际误差（margin of error，E，也称误差幅度）

边际误差就是所谓的
$E=z_{\alpha/2}\sigma_{\bar{x}}=z_{\alpha/2}\frac{\sigma}{\sqrt{n}}$

其实就是用来构建置信区间的。

当然，如果总体标准差不知道的话，就用样本标准差代替，分布变成t分布。
$E=t_{\alpha/2}\frac{s}{\sqrt{n}}$

可以看到，如果想要降低E，即缩短置信区间，最稳妥的方法就是增大n。即提高样本容量。

比例的置信区间

这部分来自于Y叔的统计笔记。我感觉写的很直观，就直接放了。

比例的置信区间也差不多，公式在下面
$(\hat{p} - E) < p < (\hat{p} + E)$
其中 E 是边际误差， $\hat{p}$ 是算出来的比例，而p是总体比例。E通过下面的式子
$E = z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$
因为这种情况是符合二项分布的，而n有比较大，所以用正态分布来估计。

比如我们检测了829个成年人，51%反对修铁路。问总体上有大约多少是反对修铁路的。

首先，我们先检查这个二项分布是否符合正态分布的近似。发现， $n\hat{p}=422.79 > 5$ ， $n\hat{q}=406.21 > 5$ 。的确是可以用来近似的。

然后就计算 E：
$E =1.96\sqrt{\frac{0.51*0.49}{829}}$
就可以算出置信区间了。

方差和标准差的置信区间

我们如果是拿样本的标准差来估计总体的标准差的置信区间，就要用到卡方分布。

假设我们从正态分布的总体中每次抽出样本量为n的样本，计算样本的方差 $s^2$ 。那么每次计算得到的 $\frac{(n-1)s^2}{\sigma^2}$ 就会符合卡方分布。
$\chi^2 = \frac{(n-1)s^2}{\sigma^2}$
因为卡方是不对称分布，所以置信区间也是不对称的，所以需要分别找出左侧和右侧的临界值。

假设我们抽取的n是100，那么自由度（degree of freedom）是99，我们要计算95%的置信区间，需要分别计算左侧0.025和右侧0.025的临界值：

> qchisq(0.975,99)
[1] 128.422
> qchisq(0.025,99)
[1] 73.36108

这两个值被称为卡方左右值， $\chi_{L}^2$ 和 $\chi_{R}^2$ 。那么标准差置信区间的计算就是
$\sqrt{\frac{(n-1)s^2}{\chi_{R}^2}} < \sigma < \sqrt{\frac{(n-1)s^2}{\chi_{L}^2}}$

参考资料

Y叔的统计笔记

给女朋友写的生统资料_Part11