0.0 描述统计学和推断统计学
统计学是一门围绕数据展开的科学。从应用上看,可分为描述统计(descriptive statistics)和推断统计(inferential statistics)。
描述统计是对数据整体特征进行描绘,包括集中趋势(平均数、众数、中位数)、离散趋势(标准差、极差、四分位差值、全距)、变化趋势(同比、环比)、分布趋势(偏度、峰度)等非常耳熟能详的概念,并且描述统计也是各类统计工作(如公司年报、周报等)的主要内容。
推断统计则是在数据描述的基础上作出更多信息的推断。
1.0 基本概念和原理说明
1.1 总体&参数 vs 样本&估计
首先需要对总体(population)、参数(parameter)、样本(sample)、样本容量(sample size)和估计(estimator)等概念进行说明。
总体就是对某一现象或某一事物的所有可能情况的数据集合。但实际中由于时间、地点、预算、人力等客观条件的限制无法获得数据的全集,只能经济适用地取得其中的一部分数据(即子集),这就是样本。而获取样本的过程即为抽样(sampling),这是一项严谨复杂的工作,这里就不展开说了。
通常描述统计工作都是针对样本数据进行的,准确地来说是在描述样本,而不是总体,但是可以基于样本数据的描述对总体的数据特征进行估计,这就是参数估计(parameter estimation)。参数其实是描述总体数据的指标的统称,也称统计量(statistic),如总体均值、总体方差等。由于总体数据无法获得,这些参数实际是未知的,此时就只能通过样本数据对总体参数进行推断。这一过程就是参数估计,推断得出的数值就是参数的估计或估计值,如样本均值、样本方差等。通过参数估计使用样本信息去了解总体的过程也叫做统计推断(sample Inference)。
1.2 三种分布:总体分布、样本分布、抽样分布
总体分布(population distribution)如字面意思,就是数据整体的分布形态。
样本分布(sample distribution)& 抽样分布(sampling distribution)则容易混淆。当进行一次抽样时,会得到一组样本数据,这组数据的分布形态为样本分布。而当进行多次抽样时会得到多组样本数据,每组样本会得到一个样本统计量(如均值),最终形成一组样本统计量,这组数据的形态为抽样分布。而用来推断总体特征的是抽样分布,而非样本分布。
Q1:为什么不直接使用样本分布推断总体?A1:对抽样方法、环境等要求苛刻,可靠性不高。
Q2:为什么抽样分布可以推断总体?A1:抽样分布具有稳定的分布性质,如样本均值服从大数定律和中心极限定理。
1.2 大数定律
通俗来讲,大数定律(law of large numbers)说明当抽样足够多时,样本特征趋近于总体特征。这一点其实很好理解,当样本有无穷多时,样本约等于总体,此时可以理所应当地认为样本特征即为总体特征。
大数定律有两种形式(也有说三种,下文说明):
切比雪夫大数定律:设 是任意均值为、方差为(不一定正态)的随机序列,即为一个样本。那么当样本数无限多时,有,它揭示了样本均值和总体均值的关系,即样本足够多时样本均值趋于总体均值。比较常见的例子就是问卷调查。
辛钦大数定律,这里只说明其特殊情况——伯努利大数定律:设为重伯努利实验中事件发生的次数,为在每次实验中发生的概率,当实验次数无限多时,则有,它揭示了概率与频率的关系,当实验重复次数很多时,事件发生概率就等于其出现的频率。最常见例子就是抛骰子或者硬币。
1.3 中心极限定理
中心极限定理(central limit theorem):对于任意均值为,方差为的总体,当样本容量 时,其样本均值 近似服从均值为、方差为的正态分布,即:~。
表示样本统计量的离散程度,若样本量逐渐增大,则逐渐减小,即抽样分布的方差缩小,从正态分布图像上看表现变窄。这是由于随着样本量增大,抽样将逐渐趋近于总体,样本均值将不断趋近于总体均值,因此方差会变小,分布图像会变窄。
中心极限定理是推断统计的核心,描述了样本量所服从的抽样分布为正态分布,参数估计和假设检验都是基于中心极限定理进行的。
2.0 参数估计
参数估计(parameter estimation)就是使用抽样所得的样本统计量对总体参数进行估计。从估计结果上看,可分为点估计和区间估计。
2.1 点估计
点估计(point estimation)是最为常见的估计形式,就是直接以样本统计量作为总体参数的估计值,由于样本统计量仅是一个数值,因此称之为点估计。那么区间估计,顾名思义就是以一段数值区间作为总体参数的估计值。
常见总体参数的点估计:
总体均值的估计:
总体方差的估计:
总体比例的估计:,服从伯努利分布
2.2 区间估计
区间估计(interval estimation)是以数值区间的形式作为参数估计。那么如何确定估计区间呢?
2.2.1 均值的区间估计
根据中心极限定理,当样本量时样本均值近似服从正态分布,其中为总体均值,为总体方差。根据正态分布取值的概率特征,样本均值应该分别有90%、95%、99%的概率(即置信水平,confidence level)落在以为中心的、、的范围内(1.645、1.96、2.58为标准正态分布下三个置信水平的对应取值),反之即可计算得到的估计区间。
举例来看:当,那么有,移项即可得的区间估计。
以上为总体服从正态分布,且样本量足够、方差已知的情况。其他的各种情况说明如下:
1)当样本量,总体为任意分布且总体方差已知,则
2)当样本量,总体为任意分布且总体方差未知,可用样本方差替代,则
3)当样本量 ,总体服从正态分布,若总体方差已知,则;若总体方差未知,则;注意这里为分布,为非正态分布了
4)当样本量,总体服从非正态分布,分情况计算(卡方分布或F分布)
2.2.2 比例/概率的区间估计
比例/概率的区间估计有些特殊:首先要求总体服从二项分布, ;其次要求样本量要足够大,这里的足够大不是满足于某个数值,而是且。此时二项分布可近似为正态分布。同上,单次实验得到的事件概率或结果比例的置信区间为