数据分析师基础篇--样本量估计（实例讲解）

020二月第三周

在实际工作中，我们经常需要通过抽样评估，来近似得到总体的一些特征情况。那么今天来讨论下我们究竟抽取多少的样本量，计算出数据特征，才能够有统计学意义来近似总体特征。

此文的例子主要围绕常见的两种情况讲解，一、样本均值中样本量n的估计，例如用户“帖子平均质量”的评估二、样本比率中的样本量n的估计，例如网站“帖子作弊率”的评估。

一、样本均值类问题的样本量估计

用户“帖子平均质量”的评估为例，我们为了得到近期帖子质量均指，不可能把所有的至少上万的数据（总体）都评估一遍，那么我们就需要从总体中抽一部分出来（样本），根据样本的帖子质量均值情况来估计总体的质量均值。那么抽取多少样本量，算出来的质量均值才能代表总体帖子质量均值呢？

1公式直接应用：

此处先给出公式，可直接应用，想了解原理，请看第二部分。

公式 $n=\frac{z^2*\delta ^2}{E^2 }$

n：需估计的样本量

z：为标准正态分布的上α分位点，当置信度为95%时，z=1.96，置信度为90%时，z=1.65，（一般互联网的估计中，我们采用置信度90%即可）

$\delta ^2$ ：为总体方差，如果总体方差未知，可以通过之前研究的数据计算其估计值，或者先选取一个初始样本，以初始样本的方差作为估计值。

E：为可接受的误差，即可接受的样本值与总体值的差，例如，你希望的样本值大概率落在区间（ $\mu$ ±1%）内，则可接受的误差为1%。

举例：帖子质量得分为1-10分，我们希望抽取部分样本，置信度为95% z=1.96，总体方差估计值为2，E可接受误差为0.1分，则我们需要抽取的样本量

n=1.96*1.96*2*2/0.1*0.1=1536个

2原理解读

问题：抽多少样本量n，样本参数近似总体参数可信程度高

抽样误差：

当我们抽10个帖子，质量均值是7分，经验告诉我们结果不太可信，量太少，误差大

当我们抽100个帖子，质量均值还是7分，可能觉总体均值就是7分左右了，差的不多了

当我们抽1000个帖子，质量均值还是7分，我们认为大概率就是7分了，误差很小

为什么三次抽样，结果都是7分，但随着样本量的增加，人们认为结果的可信程度增加了呢，或者说误差就小了呢。这里的误差，就是抽样误差（因样本存在变异，由抽样导致的样本与总体的差异），抽样误差=总体值-样本值，总体值我们永远拿不到，所以我们需要找到其他方式，来表达抽样误差的大小，则可以解决结果是否可信，若抽样误差小，则可以认为结果可信，样本值是可以近似代表总体值的。

问题：现在抽多少量的问题，变成了判断抽样误差大小

理论假设实验：先设总体服从正态分布，通过重复的抽样多次，样本均数的分布也服从一定的规律，样本均数构成的统计量 $\bar{X}$ 服从 $N（\mu ，\frac{\delta^2}{n} ）$ （记住就好了），样本均数的均数和总体均数一样 $E(\bar{X})=\mu$ ，样本均数的方差是总体方差的n分之一 $D(\bar{X})=\frac{\delta ^2}{n}$ （抽出n个样本，波动肯定比总体小），样本均数 $\bar{X}$ 的标准差为 $\frac{\delta}{\sqrt{n} }$ ,表示的是样本均数抽样误差离散程度的大小，即样本均数回推总体均数时抽样误差的大小。总结：总体的样本均数的标准差，就是抽样误差E= $\frac{\delta}{\sqrt{n} }$ 。 抽样误差的大小取决于两个维度①总体标准差 ②样本量的大小，样本量越大，抽样误差越小。

根据中心极限定理：设随机变量X1……Xn相互独立，服从统一分布，总体期望E(X)= $\mu$ ,方差D(X)= $\delta^2$ ,则随机变量之和 $\sum_{i=1}^n X_{i}$ 的标准化变量服从标准正态分布。如下

$\frac{\sum_{i=1}^nX_{i} -E(\sum_{i=1}^nX_{i} )}{\sqrt{D(\sum_{i=1}^nX_{i} )} }$ ~N(0,1) 即 $\frac{ n\bar{X}-n\mu }{\delta\sqrt{n}}$ ~N(0,1) ，

同除以n 有 $\frac{\bar{X}-\mu} {\frac{\delta }{\sqrt{n} } }$ ~N(0,1) 【中心极限定理，当n较大，样本均数 $\bar{X}$ ~N( $\mu$ , ${\frac{\delta }{\sqrt{n} } }$ ) 】

根据标准正态分布的上 $\alpha$ 分位点的定义 P(X> $z_{\alpha }$ )= $\alpha$ ，则有

P( $\frac{\bar{X}-\mu} {\frac{\delta }{\sqrt{n} } }$ > $z_{\alpha }$ )= $\alpha$ ，则有 $\frac{\bar{X}-\mu} {\frac{\delta }{\sqrt{n} } }$ > $z_{\alpha }$ ，则有n= $\frac{z_{\alpha} ^2*\delta ^2 }{(\bar{X}- \mu)^2 }$ , 即得到样本量估计的公式 $n=\frac{z^2*\delta ^2}{E^2 }$ （其中误差E为样本均值-总体均值）

二、样本比率类型问题的样本量估计

以网站“帖子作弊率”的评估为例，帖子作弊与否的总体（作弊，非作弊）实际上是服从0-1分布，我们为了得到近期帖子作弊率，不可能把所有的至少上万的数据（总体）都评估一遍，那么我们就需要从总体中抽一部分出来（样本），根据样本的作弊率情况来估计总体的作弊率。那么抽取多少样本量，算出来的作弊率才能代表总提交的作弊率呢？

1公式直接应用：

0-1分布的样本量是根据以下公式计算估计的 n= $\frac{z^2 *p*q} {E^2 }$

n：需估计的样本量

z：为标准正态分布的上α分位点，当置信度为95%时，z=1.96，置信度为90%时，z=1.65，（一般互联网的估计中，我们采用置信度90%即可）

p：为总体概率的计划值，抽样前P是未知的，可以用以前经验作为计划值，或者选取一个初始样本，以初始样本的概率作为计划值，例如根据之前经验，总体的帖子提交作弊率为3%，则p=3% ，q=1-p=97%。当完全无法估计p时，可以让计划值P取0.5，这时q也为0.5，p*q能取得最大值，同时n也能取得最大值。

E：为误差，即样本值与总体值的差，例如，你希望样本值大概率落在区间（总体p±1%）内，则误差为1%

下图中是一些举例，例如当作弊率为1%左右时，至少要抽n=2.6w个case进行评估，才能使得作弊率的置信度为90%，误差在P*10%左右。这表示：做一次抽样，抽取样本量2.6w，得到样本值P'，从而得到一个置信区间（a,b），这个区间包含总体P的可信程度为90%。

又例如当作弊率为3%，误差一般我们可以容忍1%，则我们可以抽取样本量n为1000左右即可，这样通过该样本算出的可信区间约在（2%，4%）左右，表明这个区间包含总体作弊率的概率为90%。

可以看出当p越小，误差E的大小同为10%*P，所需要的n越大，现实中也可以理解，当一个事件发生的概率很小时，我们需要抽很多才能抽到该事件，且经验上抽越多我们才能认为抽样估计是准确的。

2原理解读

参考一部分的原理

例：作弊率的总体X服从（0,1）分布，（0,1）分布的期望为p，方差为p（1-p）

根据中心极限定理知（当n充分大时，随机变量X1...Xn的均值 $\bar{X}$ 趋近于正态分布，随机变量X1...Xn的和的标准化变量趋近于标准正态分布 ）

$\frac{\sum_{i=1}^nX_{i} -E（\sum_{i=1}^nX_{i}）}{\sqrt{D（\sum_{i=1}^nX_{i}）} }$ ~N（0,1），即服从标准正态分布

即 $\frac{n \bar{X}-np}{\sqrt{npq} }$ ~N（0,1），根据标准正太分布的上 $\alpha$ 分位点定义，

有p{ $-z<\frac{n \bar{X }-np}{\sqrt{npq} } < z$ }=1- $\alpha$ ， $-z<\frac{n \bar{X }-np}{\sqrt{npq} } < z$ ,

上式公式变换得 $n=\frac{z^2 *p*q}{ \bar{E }}$ , 得到我们的公式（q=1-p）。

（本文主要依赖于中心极限定理，可参考https://blog.csdn.net/xiuxin121/article/details/78756143）

数据分析师基础篇--样本量估计（实例讲解）

数据分析师基础篇--样本量估计（实例讲解）

相关阅读更多精彩内容

友情链接更多精彩内容