数据分析师基础篇--样本量估计(实例讲解)

020二月第三周

       在实际工作中,我们经常需要通过抽样评估,来近似得到总体的一些特征情况。那么今天来讨论下我们究竟抽取多少的样本量,计算出数据特征,才能够有统计学意义来近似总体特征。

       此文的例子主要围绕常见的两种情况讲解,一、样本均值中样本量n的估计,例如用户“帖子平均质量”的评估  二、样本比率中的样本量n的估计 ,例如网站“帖子作弊率”的评估 。

一、样本均值类问题的样本量估计

      用户“帖子平均质量”的评估为例,我们为了得到近期帖子质量均指,不可能把所有的至少上万的数据(总体)都评估一遍,那么我们就需要从总体中抽一部分出来(样本),根据样本的帖子质量均值情况来估计总体的质量均值。那么抽取多少样本量,算出来的质量均值才能代表总体帖子质量均值呢?

1公式直接应用:

       此处先给出公式,可直接应用,想了解原理,请看第二部分。

       公式n=\frac{z^2*\delta ^2}{E^2 }

n:需估计的样本量

z:为标准正态分布的上α分位点,当置信度为95%时,z=1.96,置信度为90%时,z=1.65,(一般互联网的估计中,我们采用置信度90%即可)

 \delta ^2:为总体方差,如果总体方差未知,可以通过之前研究的数据计算其估计值, 或者先选取一个初始样本,以初始样本的方差作为估计值。

E:为可接受的误差,即可接受的样本值与总体值的差,例如,你希望的样本值大概率落在区间( \mu ±1%)内,则可接受的误差为1%。

举例:帖子质量得分为1-10分,我们希望抽取部分样本,置信度为95%  z=1.96,总体方差估计值为2,E可接受误差为0.1分,则我们需要抽取的样本量

n=1.96*1.96*2*2/0.1*0.1=1536个

2原理解读

问题:抽多少样本量n,样本参数近似总体参数可信程度高

抽样误差:

当我们抽10个帖子,质量均值是7分,经验告诉我们结果不太可信,量太少,误差大

当我们抽100个帖子,质量均值还是7分,可能觉总体均值就是7分左右了,差的不多了

当我们抽1000个帖子,质量均值还是7分,我们认为大概率就是7分了,误差很小

为什么三次抽样,结果都是7分,但随着样本量的增加,人们认为结果的可信程度增加了呢,或者说误差就小了呢。这里的误差,就是抽样误差(因样本存在变异,由抽样导致的样本与总体的差异),抽样误差=总体值-样本值, 总体值我们永远拿不到,所以我们需要找到其他方式,来表达抽样误差的大小,则可以解决结果是否可信,若抽样误差小,则可以认为结果可信,样本值是可以近似代表总体值的。

问题:现在抽多少量的问题,变成了判断抽样误差大小

理论假设实验:先设总体服从正态分布,通过重复的抽样多次, 样本均数的分布也服从一定的规律,样本均数构成的统计量服从(记住就好了),样本均数的均数和总体均数一样 E(\bar{X})=\mu ,样本均数的方差是总体方差的n分之一D(\bar{X})=\frac{\delta ^2}{n} (抽出n个样本,波动肯定比总体小),样本均数的标准差为\frac{\delta}{\sqrt{n} } ,表示的是样本均数抽样误差离散程度的大小,即样本均数回推总体均数 时抽样误差的大小。    总结:总体的样本均数的标准差,就是抽样误差E=\frac{\delta}{\sqrt{n} } 。 抽样误差的大小取决于两个维度①总体标准差 ②样本量的大小,样本量越大,抽样误差越小。

根据中心极限定理: 设随机变量X1……Xn相互独立,服从统一分布,总体期望E(X)=\mu ,方差D(X)=\delta^2,则随机变量之和\sum_{i=1}^n X_{i}的标准化变量服从标准正态分布。 如下

\frac{\sum_{i=1}^nX_{i} -E(\sum_{i=1}^nX_{i}  )}{\sqrt{D(\sum_{i=1}^nX_{i}  )} } ~N(0,1)   即 \frac{ n\bar{X}-n\mu }{\delta\sqrt{n}} ~N(0,1) ,

同除以n 有\frac{\bar{X}-\mu} {\frac{\delta }{\sqrt{n} } } ~N(0,1)    【中心极限定理,当n较大,样本均数\bar{X}~N( \mu ,{\frac{\delta }{\sqrt{n} } } ) 】

根据标准正态分布的上\alpha 分位点的定义 P(X>z_{\alpha } )=\alpha  ,则有

 P(\frac{\bar{X}-\mu} {\frac{\delta }{\sqrt{n} } } >)=\alpha   ,则有\frac{\bar{X}-\mu} {\frac{\delta }{\sqrt{n} } } >      ,则有n=\frac{z_{\alpha} ^2*\delta ^2  }{(\bar{X}- \mu)^2 }  , 即得到样本量估计的公式  n=\frac{z^2*\delta ^2}{E^2 }   (其中误差E为样本均值-总体均值)

二、样本比率类型问题的样本量估计

       以网站“帖子作弊率”的评估为例,帖子作弊与否的总体(作弊,非作弊)实际上是服从0-1分布,我们为了得到近期帖子作弊率,不可能把所有的至少上万的数据(总体)都评估一遍,那么我们就需要从总体中抽一部分出来(样本),根据样本的作弊率情况来估计总体的作弊率。那么抽取多少样本量,算出来的作弊率才能代表总提交的作弊率呢?

1公式直接应用:

       0-1分布的样本量是根据以下公式计算估计的  n=\frac{z^2 *p*q} {E^2 }

n:需估计的样本量

z:为标准正态分布的上α分位点,当置信度为95%时,z=1.96,置信度为90%时,z=1.65,(一般互联网的估计中,我们采用置信度90%即可)

p:为总体概率的计划值,抽样前P是未知的,可以用以前经验作为计划值,或者选取一个初始样本,以初始样本的概率作为计划值,  例如根据之前经验,总体的帖子提交作弊率为3%,则p=3%  ,q=1-p=97%。当完全无法估计p时,可以让计划值P取0.5,这时q也为0.5,p*q能取得最大值,同时n也能取得最大值。

E:为误差,即样本值与总体值的差,例如,你希望样本值大概率落在区间(总体p±1%)内,则误差为1%

       下图中是一些举例,例如当作弊率为1%左右时,至少要抽n=2.6w个case进行评估,才能使得作弊率的置信度为90%,误差在P*10%左右。这表示:做一次抽样,抽取样本量2.6w,得到样本值P',从而得到一个置信区间(a,b),这个区间包含总体P的可信程度为90%。

又例如当作弊率为3%,误差一般我们可以容忍1%,则我们可以抽取样本量n为1000左右即可,这样通过该样本算出的可信区间约在(2%,4%)左右,表明这个区间包含总体作弊率的概率为90%。

        可以看出当p越小,误差E的大小同为10%*P,所需要的n越大,现实中也可以理解,当一个事件发生的概率很小时,我们需要抽很多才能抽到该事件,且经验上抽越多我们才能认为抽样估计是准确的。 

2原理解读

参考一部分的原理

例:作弊率的总体X服从(0,1)分布,(0,1)分布的期望为p,方差为p(1-p)

根据中心极限定理知(当n充分大时,随机变量X1...Xn的均值\bar{X}趋近于正态分布,随机变量X1...Xn的和的标准化变量趋近于标准正态分布

\frac{\sum_{i=1}^nX_{i}  -E(\sum_{i=1}^nX_{i})}{\sqrt{D(\sum_{i=1}^nX_{i})} }  ~N(0,1),即服从标准正态分布

\frac{n \bar{X}-np}{\sqrt{npq} }  ~N(0,1),根据标准正太分布的上\alpha 分位点定义,

有p{-z<\frac{n \bar{X }-np}{\sqrt{npq} } < z }=1-\alpha        ,-z<\frac{n \bar{X }-np}{\sqrt{npq} } < z ,     

上式公式变换得    n=\frac{z^2 *p*q}{ \bar{E }}    ,  得到我们的公式 (q=1-p)。

(本文主要依赖于中心极限定理,可参考https://blog.csdn.net/xiuxin121/article/details/78756143

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 《R语言与统计分析》的读书笔记 本书的重点内容及感悟: 第三章 概率与分布 1、随机抽样 通过sample()来实...
    格式化_001阅读 6,796评论 1 12
  • 1. 简述相关分析和回归分析的区别和联系。 回归分析和相关分析都是研究两个或两个以上变量之间关系的方法。 广义上说...
    安也也阅读 8,850评论 0 3
  • 数据分析方法分为四大类: 1、单纯的数据加工方法 a.描述性统计分析(集中、离中趋势分析和数据分布) b.相关性分...
    重生之魂阅读 2,934评论 0 3
  • 我想给我一个黑夜, 全然不顾所有的爱与恨。 不再怀念过往, 也不再考虑未来。 我想把自己变的渺小, 只够栖息在你的...
    夜有风声语阅读 578评论 1 13
  • 最近,我一直在想这样一个问题,我的脾气一直都很坏,我忽然间想到了一个问题,是不是我的名字出了问题,因为魏...
    作家阿彪阅读 260评论 0 0