020二月第三周
在实际工作中,我们经常需要通过抽样评估,来近似得到总体的一些特征情况。那么今天来讨论下我们究竟抽取多少的样本量,计算出数据特征,才能够有统计学意义来近似总体特征。
此文的例子主要围绕常见的两种情况讲解,一、样本均值中样本量n的估计,例如用户“帖子平均质量”的评估 二、样本比率中的样本量n的估计 ,例如网站“帖子作弊率”的评估 。
一、样本均值类问题的样本量估计
用户“帖子平均质量”的评估为例,我们为了得到近期帖子质量均指,不可能把所有的至少上万的数据(总体)都评估一遍,那么我们就需要从总体中抽一部分出来(样本),根据样本的帖子质量均值情况来估计总体的质量均值。那么抽取多少样本量,算出来的质量均值才能代表总体帖子质量均值呢?
1公式直接应用:
此处先给出公式,可直接应用,想了解原理,请看第二部分。
公式
n:需估计的样本量
z:为标准正态分布的上α分位点,当置信度为95%时,z=1.96,置信度为90%时,z=1.65,(一般互联网的估计中,我们采用置信度90%即可)
:为总体方差,如果总体方差未知,可以通过之前研究的数据计算其估计值, 或者先选取一个初始样本,以初始样本的方差作为估计值。
E:为可接受的误差,即可接受的样本值与总体值的差,例如,你希望的样本值大概率落在区间( ±1%)内,则可接受的误差为1%。
举例:帖子质量得分为1-10分,我们希望抽取部分样本,置信度为95% z=1.96,总体方差估计值为2,E可接受误差为0.1分,则我们需要抽取的样本量
n=1.96*1.96*2*2/0.1*0.1=1536个
2原理解读
问题:抽多少样本量n,样本参数近似总体参数可信程度高
抽样误差:
当我们抽10个帖子,质量均值是7分,经验告诉我们结果不太可信,量太少,误差大
当我们抽100个帖子,质量均值还是7分,可能觉总体均值就是7分左右了,差的不多了
当我们抽1000个帖子,质量均值还是7分,我们认为大概率就是7分了,误差很小
为什么三次抽样,结果都是7分,但随着样本量的增加,人们认为结果的可信程度增加了呢,或者说误差就小了呢。这里的误差,就是抽样误差(因样本存在变异,由抽样导致的样本与总体的差异),抽样误差=总体值-样本值, 总体值我们永远拿不到,所以我们需要找到其他方式,来表达抽样误差的大小,则可以解决结果是否可信,若抽样误差小,则可以认为结果可信,样本值是可以近似代表总体值的。
问题:现在抽多少量的问题,变成了判断抽样误差大小
理论假设实验:先设总体服从正态分布,通过重复的抽样多次, 样本均数的分布也服从一定的规律,样本均数构成的统计量服从
(记住就好了),样本均数的均数和总体均数一样
,样本均数的方差是总体方差的n分之一
(抽出n个样本,波动肯定比总体小),样本均数
的标准差为
,表示的是样本均数抽样误差离散程度的大小,即样本均数回推总体均数 时抽样误差的大小。 总结:总体的样本均数的标准差,就是抽样误差E=
。 抽样误差的大小取决于两个维度①总体标准差 ②样本量的大小,样本量越大,抽样误差越小。
根据中心极限定理: 设随机变量X1……Xn相互独立,服从统一分布,总体期望E(X)=,方差D(X)=
,则随机变量之和
的标准化变量服从标准正态分布。 如下
~N(0,1) 即
~N(0,1) ,
同除以n 有~N(0,1) 【中心极限定理,当n较大,样本均数
~N(
,
) 】
根据标准正态分布的上分位点的定义 P(X>
)=
,则有
P(>
)=
,则有
>
,则有n=
, 即得到样本量估计的公式
(其中误差E为样本均值-总体均值)
二、样本比率类型问题的样本量估计
以网站“帖子作弊率”的评估为例,帖子作弊与否的总体(作弊,非作弊)实际上是服从0-1分布,我们为了得到近期帖子作弊率,不可能把所有的至少上万的数据(总体)都评估一遍,那么我们就需要从总体中抽一部分出来(样本),根据样本的作弊率情况来估计总体的作弊率。那么抽取多少样本量,算出来的作弊率才能代表总提交的作弊率呢?
1公式直接应用:
0-1分布的样本量是根据以下公式计算估计的 n=
n:需估计的样本量
z:为标准正态分布的上α分位点,当置信度为95%时,z=1.96,置信度为90%时,z=1.65,(一般互联网的估计中,我们采用置信度90%即可)
p:为总体概率的计划值,抽样前P是未知的,可以用以前经验作为计划值,或者选取一个初始样本,以初始样本的概率作为计划值, 例如根据之前经验,总体的帖子提交作弊率为3%,则p=3% ,q=1-p=97%。当完全无法估计p时,可以让计划值P取0.5,这时q也为0.5,p*q能取得最大值,同时n也能取得最大值。
E:为误差,即样本值与总体值的差,例如,你希望样本值大概率落在区间(总体p±1%)内,则误差为1%
下图中是一些举例,例如当作弊率为1%左右时,至少要抽n=2.6w个case进行评估,才能使得作弊率的置信度为90%,误差在P*10%左右。这表示:做一次抽样,抽取样本量2.6w,得到样本值P',从而得到一个置信区间(a,b),这个区间包含总体P的可信程度为90%。
又例如当作弊率为3%,误差一般我们可以容忍1%,则我们可以抽取样本量n为1000左右即可,这样通过该样本算出的可信区间约在(2%,4%)左右,表明这个区间包含总体作弊率的概率为90%。
可以看出当p越小,误差E的大小同为10%*P,所需要的n越大,现实中也可以理解,当一个事件发生的概率很小时,我们需要抽很多才能抽到该事件,且经验上抽越多我们才能认为抽样估计是准确的。
2原理解读
参考一部分的原理
例:作弊率的总体X服从(0,1)分布,(0,1)分布的期望为p,方差为p(1-p)
根据中心极限定理知(当n充分大时,随机变量X1...Xn的均值趋近于正态分布,随机变量X1...Xn的和的标准化变量趋近于标准正态分布 )
~N(0,1),即服从标准正态分布
即 ~N(0,1),根据标准正太分布的上
分位点定义,
有p{ }=1-
,
,
上式公式变换得 , 得到我们的公式 (q=1-p)。
(本文主要依赖于中心极限定理,可参考https://blog.csdn.net/xiuxin121/article/details/78756143)