1. 基础概念及其定义
1.1 简单随机样本(有限总体)
从容量为 的有限总体中抽取一个容量为n的样本,如果容量为
的每一个可能的样本都以相等的概率被抽出,则称该样本为简单随机样本。
1.2 随机样本(无限总体)
如果从一个无限总体中抽取一个容量为 的样本,使得下面的条件得到满足:
- 抽取的每个个体来自同一总体
- 每个个体的抽取是独立的
则称该样本是一个随机样本
1.3 抽样分布
一个样本统计量所有可能值构成的概率分布
1.4 无偏性
点估计量的一个性质,此时点估计量的数学期望等于所估总体参数的值
1.5 中心极限定理
从总体中抽取容量为 的简单随机样本,当样本容量很大时,样本均值
的抽样分布近似服从正态概率分布。一般来说,当样本容量大于或者等于
时,
的抽样分布可用正态分布近似。
1.6 抽样方法
- 分层随机抽样:先将总体分成若干层,然后在每层中进行简单随机抽样。依赖于层内个体的同质性。
- 整群抽样:先将总体分成若干群,然后以群为单位进行简单随机抽样。依赖于每一群对整个总体的代表性。
1.7 区间估计
总体参数估计值的一个区间,确信该区间将参数值纳入其中。通常是在点估计上加减一个边际误差的值来计算区间估计。区间估计的目的在于,提供基于样本得出的点估计值与总体参数值的接近程度方面的信息。
2. 抽样分布
2.1
的抽样分布
样本均值 的所有可能值的概率分布。可用于提供样本均值
与总体均值
的接近程度的概率信息。
- 数学期望
其中,为总体均值
- 标准(误)差
当时,采用无限总体的计算公式。样本容量越大,样本均值落在总体均值附近某一特定范围内的概率也越大。
-
抽样分布的形态
- 当总体服从正态分布时,在任何样本容量下
的抽样分布都是正态分布
- 当总体不服从正态分布时,根据中心极限定理来判定。
2.2
的抽样分布
样本比率 是总体比率
的点估计,样本比率的计算公式为
其中, 为样本中具有感兴趣特征的个体的数量,
代表样本容量。
的抽样分布是样本比率
的所有可能值的概率分布。它可以对样本比率与总体比率的差异程度提供概率信息。
- 数学期望
- 标准(误)差
当时,采用无限总体的计算公式。
-
抽样分布的形态
- 当
并且
时,
的抽样分布可以用正态分布近似。
2.3
的抽样分布
为样本秩相关系数,其计算公式为:
其中, 为样本中观测值的个数;
为对于第
个变量的第
观测值的秩;
为对于第
个变量的第
观测值的秩;
。
的抽样分布
- 均值:
- 标准差:
- 分布形式
时,近似服从正态分布。
3. 总体均值的区间估计
一个点估计量 边际误差。其中,边际误差 = 标准误差乘以
。
3.1
已知的情形
其中, 为置信系数,
表示标准正态概率分布上侧面积为
时的
值。
常用的置信水平下的 值:
置信水平 | ||||
---|---|---|---|---|
90% | 0.1 | 1.28 | 0.05 | 1.645 |
95% | 0.05 | 1.645 | 0.025 | 1.960 |
99% | 0.01 | 2.33 | 0.005 | 2.576 |
应用中需要注意若总体服从正态分布,则 给出的置信区间是精确的;若总体不属于正态分布,则需要样本容量足够(一般
已足够,若总体分布大致对称,则样本容量至少为
才能得到置信区间一个好的近似。)
3.2
未知的情形
3.2.1
分布
一类概率分布,当总体标准差 未知而用样本标准差
对其进行估计时,该分布用于建立总体均值的区间估计。随着自由度的增大,
分布与标准正态分布越来越相似。
分布用于计算总体均值的区间估计,其自由度为
,其中
是样本容量。
3.2.1 总体均值的区间估计
其中, 为样本标准差,
为置信系数,
表示自由度为
的
的分布中,上侧面积为
时的
值。
应用中需要注意若总体服从正态分布,则 给出的置信区间是精确的;若总体不属于正态分布,则需要样本容量足够(一般
已足够,若总体分布大致对称,则样本容量至少为
才能得到置信区间一个好的近似;若总体的分布是严重偏斜或者包含异常点时,需要样本容量
。)
3.3 样本容量的确定
其中, 为希望达到的边际误差。若总体标准差
是未知的,一般可以将
做为标准差
的粗略估计。
4. 总体比率的区间估计
3.4.1 区间估计
其中, 为置信系数,
表示标准正态概率分布上侧面积为
时的
值。
3.4.2 样本容量
其中, 表示
的计划值,
为希望达到的边际误差。
5. 两总体均值之差的区间估计
两总体均值之差的点估计量为
5.1
和
已知的情形
的标准误差
的区间估计
其中,为置信系数。
5.2
和
未知的情形
的标准误差
的区间估计
其中,为置信系数;
统计量的自由度采用如下计算公式
5.3 匹配样本
- 区间估计
其中,为样本差值的均值,
为样本标准差,
分布的自由度为
。
6. 两总体比例之差的区间估计
两总体比例之差的点估计量为
的标准误差
的区间估计
其中,为置信系数;两总体比例未知时,用
来估计
。
7. 一个总体方差的统计推断
从正态总体中任一抽取一个容量为
的简单随机样本,则
的抽样分布服从自由度为的
分布。
一个总体方差的区间估计
其中,表示
分布右侧的面积或概率为
时对应的
值,
分布的自由度为
,
为样本容量。
8. 两个总体方差的统计推断
- 从两个方差相等的正态总体中分别抽取容量为
和
的两个独立的简单随机样本,则
的抽样分布服从分子自由度为
和分布自由度为
的
分布。
为取自总体
的容量为
的随机样本的样本方差,
为取自总体
的容量为
的随机样本的样本方差。