数据分析师基础篇--样本量估计(实例讲解)

020二月第三周

       在实际工作中,我们经常需要通过抽样评估,来近似得到总体的一些特征情况。那么今天来讨论下我们究竟抽取多少的样本量,计算出数据特征,才能够有统计学意义来近似总体特征。

       此文的例子主要围绕常见的两种情况讲解,一、样本均值中样本量n的估计,例如用户“帖子平均质量”的评估  二、样本比率中的样本量n的估计 ,例如网站“帖子作弊率”的评估 。

一、样本均值类问题的样本量估计

      用户“帖子平均质量”的评估为例,我们为了得到近期帖子质量均指,不可能把所有的至少上万的数据(总体)都评估一遍,那么我们就需要从总体中抽一部分出来(样本),根据样本的帖子质量均值情况来估计总体的质量均值。那么抽取多少样本量,算出来的质量均值才能代表总体帖子质量均值呢?

1公式直接应用:

       此处先给出公式,可直接应用,想了解原理,请看第二部分。

       公式n=\frac{z^2*\delta ^2}{E^2 }

n:需估计的样本量

z:为标准正态分布的上α分位点,当置信度为95%时,z=1.96,置信度为90%时,z=1.65,(一般互联网的估计中,我们采用置信度90%即可)

 \delta ^2:为总体方差,如果总体方差未知,可以通过之前研究的数据计算其估计值, 或者先选取一个初始样本,以初始样本的方差作为估计值。

E:为可接受的误差,即可接受的样本值与总体值的差,例如,你希望的样本值大概率落在区间( \mu ±1%)内,则可接受的误差为1%。

举例:帖子质量得分为1-10分,我们希望抽取部分样本,置信度为95%  z=1.96,总体方差估计值为2,E可接受误差为0.1分,则我们需要抽取的样本量

n=1.96*1.96*2*2/0.1*0.1=1536个

2原理解读

问题:抽多少样本量n,样本参数近似总体参数可信程度高

抽样误差:

当我们抽10个帖子,质量均值是7分,经验告诉我们结果不太可信,量太少,误差大

当我们抽100个帖子,质量均值还是7分,可能觉总体均值就是7分左右了,差的不多了

当我们抽1000个帖子,质量均值还是7分,我们认为大概率就是7分了,误差很小

为什么三次抽样,结果都是7分,但随着样本量的增加,人们认为结果的可信程度增加了呢,或者说误差就小了呢。这里的误差,就是抽样误差(因样本存在变异,由抽样导致的样本与总体的差异),抽样误差=总体值-样本值, 总体值我们永远拿不到,所以我们需要找到其他方式,来表达抽样误差的大小,则可以解决结果是否可信,若抽样误差小,则可以认为结果可信,样本值是可以近似代表总体值的。

问题:现在抽多少量的问题,变成了判断抽样误差大小

理论假设实验:先设总体服从正态分布,通过重复的抽样多次, 样本均数的分布也服从一定的规律,样本均数构成的统计量服从(记住就好了),样本均数的均数和总体均数一样 E(\bar{X})=\mu ,样本均数的方差是总体方差的n分之一D(\bar{X})=\frac{\delta ^2}{n} (抽出n个样本,波动肯定比总体小),样本均数的标准差为\frac{\delta}{\sqrt{n} } ,表示的是样本均数抽样误差离散程度的大小,即样本均数回推总体均数 时抽样误差的大小。    总结:总体的样本均数的标准差,就是抽样误差E=\frac{\delta}{\sqrt{n} } 。 抽样误差的大小取决于两个维度①总体标准差 ②样本量的大小,样本量越大,抽样误差越小。

根据中心极限定理: 设随机变量X1……Xn相互独立,服从统一分布,总体期望E(X)=\mu ,方差D(X)=\delta^2,则随机变量之和\sum_{i=1}^n X_{i}的标准化变量服从标准正态分布。 如下

\frac{\sum_{i=1}^nX_{i} -E(\sum_{i=1}^nX_{i}  )}{\sqrt{D(\sum_{i=1}^nX_{i}  )} } ~N(0,1)   即 \frac{ n\bar{X}-n\mu }{\delta\sqrt{n}} ~N(0,1) ,

同除以n 有\frac{\bar{X}-\mu} {\frac{\delta }{\sqrt{n} } } ~N(0,1)    【中心极限定理,当n较大,样本均数\bar{X}~N( \mu ,{\frac{\delta }{\sqrt{n} } } ) 】

根据标准正态分布的上\alpha 分位点的定义 P(X>z_{\alpha } )=\alpha  ,则有

 P(\frac{\bar{X}-\mu} {\frac{\delta }{\sqrt{n} } } >)=\alpha   ,则有\frac{\bar{X}-\mu} {\frac{\delta }{\sqrt{n} } } >      ,则有n=\frac{z_{\alpha} ^2*\delta ^2  }{(\bar{X}- \mu)^2 }  , 即得到样本量估计的公式  n=\frac{z^2*\delta ^2}{E^2 }   (其中误差E为样本均值-总体均值)

二、样本比率类型问题的样本量估计

       以网站“帖子作弊率”的评估为例,帖子作弊与否的总体(作弊,非作弊)实际上是服从0-1分布,我们为了得到近期帖子作弊率,不可能把所有的至少上万的数据(总体)都评估一遍,那么我们就需要从总体中抽一部分出来(样本),根据样本的作弊率情况来估计总体的作弊率。那么抽取多少样本量,算出来的作弊率才能代表总提交的作弊率呢?

1公式直接应用:

       0-1分布的样本量是根据以下公式计算估计的  n=\frac{z^2 *p*q} {E^2 }

n:需估计的样本量

z:为标准正态分布的上α分位点,当置信度为95%时,z=1.96,置信度为90%时,z=1.65,(一般互联网的估计中,我们采用置信度90%即可)

p:为总体概率的计划值,抽样前P是未知的,可以用以前经验作为计划值,或者选取一个初始样本,以初始样本的概率作为计划值,  例如根据之前经验,总体的帖子提交作弊率为3%,则p=3%  ,q=1-p=97%。当完全无法估计p时,可以让计划值P取0.5,这时q也为0.5,p*q能取得最大值,同时n也能取得最大值。

E:为误差,即样本值与总体值的差,例如,你希望样本值大概率落在区间(总体p±1%)内,则误差为1%

       下图中是一些举例,例如当作弊率为1%左右时,至少要抽n=2.6w个case进行评估,才能使得作弊率的置信度为90%,误差在P*10%左右。这表示:做一次抽样,抽取样本量2.6w,得到样本值P',从而得到一个置信区间(a,b),这个区间包含总体P的可信程度为90%。

又例如当作弊率为3%,误差一般我们可以容忍1%,则我们可以抽取样本量n为1000左右即可,这样通过该样本算出的可信区间约在(2%,4%)左右,表明这个区间包含总体作弊率的概率为90%。

        可以看出当p越小,误差E的大小同为10%*P,所需要的n越大,现实中也可以理解,当一个事件发生的概率很小时,我们需要抽很多才能抽到该事件,且经验上抽越多我们才能认为抽样估计是准确的。 

2原理解读

参考一部分的原理

例:作弊率的总体X服从(0,1)分布,(0,1)分布的期望为p,方差为p(1-p)

根据中心极限定理知(当n充分大时,随机变量X1...Xn的均值\bar{X}趋近于正态分布,随机变量X1...Xn的和的标准化变量趋近于标准正态分布

\frac{\sum_{i=1}^nX_{i}  -E(\sum_{i=1}^nX_{i})}{\sqrt{D(\sum_{i=1}^nX_{i})} }  ~N(0,1),即服从标准正态分布

\frac{n \bar{X}-np}{\sqrt{npq} }  ~N(0,1),根据标准正太分布的上\alpha 分位点定义,

有p{-z<\frac{n \bar{X }-np}{\sqrt{npq} } < z }=1-\alpha        ,-z<\frac{n \bar{X }-np}{\sqrt{npq} } < z ,     

上式公式变换得    n=\frac{z^2 *p*q}{ \bar{E }}    ,  得到我们的公式 (q=1-p)。

(本文主要依赖于中心极限定理,可参考https://blog.csdn.net/xiuxin121/article/details/78756143

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,657评论 6 505
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,889评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,057评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,509评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,562评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,443评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,251评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,129评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,561评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,779评论 3 335
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,902评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,621评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,220评论 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,838评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,971评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,025评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,843评论 2 354

推荐阅读更多精彩内容

  • 《R语言与统计分析》的读书笔记 本书的重点内容及感悟: 第三章 概率与分布 1、随机抽样 通过sample()来实...
    格式化_001阅读 6,647评论 1 12
  • 1. 简述相关分析和回归分析的区别和联系。 回归分析和相关分析都是研究两个或两个以上变量之间关系的方法。 广义上说...
    安也也阅读 8,688评论 0 3
  • 数据分析方法分为四大类: 1、单纯的数据加工方法 a.描述性统计分析(集中、离中趋势分析和数据分布) b.相关性分...
    重生之魂阅读 2,811评论 0 3
  • 我想给我一个黑夜, 全然不顾所有的爱与恨。 不再怀念过往, 也不再考虑未来。 我想把自己变的渺小, 只够栖息在你的...
    夜有风声语阅读 552评论 1 13
  • 最近,我一直在想这样一个问题,我的脾气一直都很坏,我忽然间想到了一个问题,是不是我的名字出了问题,因为魏...
    作家阿彪阅读 217评论 0 0