refer假设检验:https://www.jianshu.com/p/0daa59e481e3
其实假设检验本身,就是利用区间估计的手段,来检验假设的正确与否
区间估计
1、计算D的区间
已知theta,通过P(D|theta) 计算D的范围
【这里严格意义上来讲不算区间估计,因为这里并不是做参数估计的,但是其实本质上都是一样的,都是通过P(D|theta) or P(theta|D) 来获得区间上的概率,并计算出在一定概率范围(置信水平)下,变量属于的区间】
已知真实ctr,估计其进行n次曝光后,点击次数的区间分布:(已知分布,在总体均值u的基础上,对样本均值的区间估计)
具体例子:
比如,已知ctr=0.01,进行1000次曝光后,在95%置信区间内,点击数量为多少?
- 计算方式:
1、使用二项分布的高斯近似
2、95%置信区间即是2sigma区间。sigma^2 = np*(1-p)=9.9,sigma= 9.9 ^ 0.5
3、区间估计为ctr * n - 2sigma ~ ctr *n + 2sigma = [3.7, 16.2]
2、估计theta的区间
已知D,通过 P(theta|D)来估计theta的范围
已知在a广告 曝光n次点击m次,求a广告真实ctr的区间估计:(已知样本,在样本概率p的基础上,对总体概率p的范围进行估计)
具体例子:
a广告,曝光1000次,点击10次,求真实ctr区间:
即:样本来自于B(1000,p)的一次抽样,要预估p的区间。
正态区间:
计算方式:
1、首先,在没有先验的情况下,我们使用MLE最大似然进行估计,计为estimator
2、其实对于X~B(n,p)来说,假设X中每个元素为Yi,则Yi~B(p)
设,在X的一次抽样数据当中,有n个Y。
所以estimator p_hat的variance可以推断如下:
PS:不过这里最主要的问题是,我们不知道真实的
3、根据2的var计算。假设本身也服从高斯分布(?),我们可以通过u和sigma计算出其区间:(这里直接拿MLE的估计代替了真实的,所以有较大误差,消除误差的方式也很简单,见wilson score interval)
正太区间,z=1.96的时候为95%置信度关键点
PS:在对p的估计中,其实我们都是在做逼近(approximation),所以要满足np》5、n(1-p)》5才能用:
因为第一,我们用p_hat*(1-p_hat)/n只是方差的估计。第二,由于二项分布是离散的,而我们用的是连续的正态分布(normal distribution),所以其本身也只是来逼近PS:
可以速记:这里等价于p~N(p_hat, p_hat(1-p_hat)/n)
这里我们其实可以验证一下,通过已知p的情况下,估计出d的范围,换算成已知d的情况下,推出p的范围,其期望值是一致的。【已知pCtr=0.01,在95%区间,1000次展现数据结果点击的范围为3.7~16.2。在已知10次点击,1000次展现的数据下,在95%区间,真实的pCtr区间为0.37%~1.62%】
这里成功次数X的方差:np(1-p),p的方差:p*(1-p)/n,在形式上与样本均值方差与总体均值方差的关系类似,但是本质上不是一回事,也差了一个1/n,但推理方式倒是比较类似
对于小样本(np<=5)的情况,可以用wilson score来做近似,改善正太区间对小样本不友好的问题。
威尔逊区间
即:
z的定义:
(这里其实也就是Wilson 区间与正太区间的差异,对于正太区间,其实是:,注意分母不同,所以我们可以得到正太区间: )
方差的定义:
通过上述式子建立等式:
联立上述两公式,解得p即可:
PS:
核心:使用高斯分布或者别的分布来对二项分布进行逼近。
伯努利分布:X~Bern(p) ,或者:X~B(1,p)
二项分布(n重伯努利):X~B(n,p)
高斯分布近似:X~N(np, np(1-p)),借此也可以推导出E=np,Sigma=np(1-p)
泊松分布近似:lambda=np
PSS:
计算样本均值的方差:
样本均值的方差S2=总体方差S1 / 样本容量n
【这里注意区分样本方差 与 样本均值方差】
【这里还有一个前提假设是,对于随机选取的样本Xi,其样本自身的方差与总体方差一致】
refer:https://www.zhihu.com/question/33394664
这个结论也非常符合直觉,即样本越大n,其均值约接近总体均值,即“样本均值的方差越小”。其实在t检验中,其分母就是样本均值的标准差。(样本内元素的sigma/样本容量n开根号)
PSS:
上述的其实都是频率学派的分析,那么我们怎么加入贝叶斯的思想。其实贝叶斯的关键就是,我们是否有一个前置的信念(prior belief)。譬如,我们对这个工厂生产的硬币已经有足够多的历史数据,获得了它们重量分布(p)的一个先验分布。那么我们便可以使用这个先验分布(prior)与该硬币的实验数据(evidence)一起推断出后验的分布(posterior)
Refer:
[1]关于二项分布的各种区间计算:
https://en.wikipedia.org/wiki/Binomial_proportion_confidence_interval