0.0 描述统计学和推断统计学

统计学是一门围绕数据展开的科学。从应用上看，可分为描述统计（descriptive statistics）和推断统计（inferential statistics）。

描述统计是对数据整体特征进行描绘，包括集中趋势（平均数、众数、中位数）、离散趋势（标准差、极差、四分位差值、全距）、变化趋势（同比、环比）、分布趋势（偏度、峰度）等非常耳熟能详的概念，并且描述统计也是各类统计工作（如公司年报、周报等）的主要内容。

推断统计则是在数据描述的基础上作出更多信息的推断。

1.0 基本概念和原理说明

1.1 总体&参数 vs 样本&估计

首先需要对总体（population）、参数（parameter）、样本（sample）、样本容量（sample size）和估计（estimator）等概念进行说明。

总体就是对某一现象或某一事物的所有可能情况的数据集合。但实际中由于时间、地点、预算、人力等客观条件的限制无法获得数据的全集，只能经济适用地取得其中的一部分数据（即子集），这就是样本。而获取样本的过程即为抽样（sampling），这是一项严谨复杂的工作，这里就不展开说了。

通常描述统计工作都是针对样本数据进行的，准确地来说是在描述样本，而不是总体，但是可以基于样本数据的描述对总体的数据特征进行估计，这就是参数估计（parameter estimation）。参数其实是描述总体数据的指标的统称，也称统计量（statistic），如总体均值、总体方差等。由于总体数据无法获得，这些参数实际是未知的，此时就只能通过样本数据对总体参数进行推断。这一过程就是参数估计，推断得出的数值就是参数的估计或估计值，如样本均值、样本方差等。通过参数估计使用样本信息去了解总体的过程也叫做统计推断（sample Inference）。

1.2 三种分布：总体分布、样本分布、抽样分布

总体分布（population distribution）如字面意思，就是数据整体的分布形态。

样本分布（sample distribution）& 抽样分布（sampling distribution）则容易混淆。当进行一次抽样时，会得到一组样本数据，这组数据的分布形态为样本分布。而当进行多次抽样时会得到多组样本数据，每组样本会得到一个样本统计量（如均值），最终形成一组样本统计量，这组数据的形态为抽样分布。而用来推断总体特征的是抽样分布，而非样本分布。

Q1：为什么不直接使用样本分布推断总体？A1：对抽样方法、环境等要求苛刻，可靠性不高。

Q2：为什么抽样分布可以推断总体？A1：抽样分布具有稳定的分布性质，如样本均值服从大数定律和中心极限定理。

1.2 大数定律

通俗来讲，大数定律（law of large numbers）说明当抽样足够多时，样本特征趋近于总体特征。这一点其实很好理解，当样本有无穷多时，样本约等于总体，此时可以理所应当地认为样本特征即为总体特征。

大数定律有两种形式（也有说三种，下文说明）：

切比雪夫大数定律：设 $x_i\in \left\{x_1, x_2, ..., x_n \right\}$ 是任意均值为 $\mu$ 、方差为 $\sigma^2$ （不一定正态）的随机序列， $x_i$ 即为一个样本。那么当样本数无限多时，有 $\overline{x} = \lim_{n\to\infty} \frac{1}{n} \sum_{i=0}^n x_i \rightarrow \mu$ ，它揭示了样本均值和总体均值的关系，即样本足够多时样本均值趋于总体均值。比较常见的例子就是问卷调查。

辛钦大数定律，这里只说明其特殊情况——伯努利大数定律：设 $f_n$ 为 $n$ 重伯努利实验中事件 $A$ 发生的次数， $p$ 为 $A$ 在每次实验中发生的概率，当实验次数无限多时，则有 $P(A) = \lim_{n\to\infty} \frac{f_n}{n} \rightarrow p$ ，它揭示了概率与频率的关系，当实验重复次数很多时，事件发生概率就等于其出现的频率。最常见例子就是抛骰子或者硬币。

1.3 中心极限定理

中心极限定理（central limit theorem）：对于任意均值为 $\mu$ ，方差为 $\sigma ^2$ 的总体，当样本容量 $n\geq 30$ 时，其样本均值 $\overline{x}$ 近似服从均值为 $\mu$ 、方差为 $\frac{\sigma^2}{n}$ 的正态分布，即： $\overline{x}$ ~ $N(\mu, \frac{\sigma ^2}{n} )$ 。

$\frac{\sigma ^2}{n}$ 表示样本统计量的离散程度，若样本量 $n$ 逐渐增大，则 $\frac{\sigma ^2}{n}$ 逐渐减小，即抽样分布的方差缩小，从正态分布图像上看表现变窄。这是由于随着样本量 $n$ 增大，抽样将逐渐趋近于总体，样本均值将不断趋近于总体均值，因此方差会变小，分布图像会变窄。

中心极限定理是推断统计的核心，描述了样本量所服从的抽样分布为正态分布，参数估计和假设检验都是基于中心极限定理进行的。

2.0 参数估计

参数估计（parameter estimation）就是使用抽样所得的样本统计量对总体参数进行估计。从估计结果上看，可分为点估计和区间估计。

2.1 点估计

点估计（point estimation）是最为常见的估计形式，就是直接以样本统计量作为总体参数的估计值，由于样本统计量仅是一个数值，因此称之为点估计。那么区间估计，顾名思义就是以一段数值区间作为总体参数的估计值。

常见总体参数的点估计：

总体均值 $\mu$ 的估计： $\overline{x} = \frac{x_1+x_2+···+x_n}{n} \rightarrow \mu$

总体方差 $\sigma ^2$ 的估计： $S^2=\sum_{i=1}^n \frac{1}{n} {(x_i-\overline{x})}^2$

总体比例 $p$ 的估计： $P = \frac{1}{n} \sum_{i=1}^n x_i$ ， $x_i$ 服从伯努利分布

2.2 区间估计

区间估计（interval estimation）是以数值区间的 $\mu \in (\overline{x}\pm 1.96\frac{S}{\sqrt{n}} )$ 形式作为参数估计。那么如何确定估计区间呢？

2.2.1 均值的区间估计

根据中心极限定理，当样本量 $n\geq 30$ 时样本均值 $\overline{x}$ 近似服从正态分布 $N(\mu, \frac{\sigma ^2}{n} )$ ，其中 $\mu$ 为总体均值， $\sigma ^2$ 为总体方差。根据正态分布取值的概率特征，样本均值 $\overline{x}$ 应该分别有90%、95%、99%的概率（即置信水平，confidence level）落在以 $\mu$ 为中心的 $\pm 1.645\frac{\sigma }{\sqrt{n}}$ 、 $\pm 1.96\frac{\sigma }{\sqrt{n}}$ 、 $\pm 2.58\frac{\sigma }{\sqrt{n}}$ 的范围内（1.645、1.96、2.58为标准正态分布下三个置信水平的对应取值），反之即可计算得到 $\mu$ 的估计区间。

举例来看：当 $1-\alpha =0.95$ ，那么有 $\mu -1.96\frac{\sigma }{\sqrt{n}} \leq \overline{x} \leq \mu +1.96\frac{\sigma }{\sqrt{n}}$ ，移项即可得 $\mu$ 的区间估计 $\overline{x}-1.96\frac{\sigma }{\sqrt{n}} \leq \mu\leq \overline{x}+1.96\frac{\sigma }{\sqrt{n}}$ 。

以上为总体服从正态分布，且样本量足够、方差已知的情况。其他的各种情况说明如下：

1）当样本量 $n\geq 30$ ，总体为任意分布且总体方差 $\sigma$ 已知，则 $\mu \in (\overline{x}\pm Z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}})$

2）当样本量 $n\geq 30$ ，总体为任意分布且总体方差 $\sigma$ 未知，可用样本方差 $S$ 替代，则 $\mu \in (\overline{x}\pm Z_{\frac{\alpha}{2}}\frac{S}{\sqrt{n}})$

3）当样本量 $n\leq 30$ ，总体服从正态分布，若总体方差 $\sigma$ 已知，则 $\mu \in (\overline{x}\pm Z_{\frac{\alpha}{2} }\frac{\sigma}{\sqrt{n}})$ ；若总体方差 $\sigma$ 未知，则 $\mu \in (\overline{x}\pm t_{\frac{\alpha}{2(n-1)}}\frac{S}{\sqrt{n}})$ ；注意这里为 $t$ 分布，为非正态分布了

4）当样本量 $n\leq 30$ ，总体服从非正态分布，分情况计算（卡方分布或F分布）

2.2.2 比例/概率的区间估计

比例/概率的区间估计有些特殊：首先要求总体服从二项分布， $B(n, p)$ ；其次要求样本量 $n$ 要足够大，这里的足够大不是满足于某个数值，而是 $np>5$ 且 $np(1-p)>5$ 。此时二项分布可近似为正态分布 $N(p,\frac{p(1-p)}{n} )$ 。同上，单次实验得到的事件概率或结果比例 $P$ 的置信区间为 $p\in (P\pm Z_{\frac{\alpha}{2}}\sqrt{\frac{p(1-p)}{n}})$