二项分布之区间估计与假设检验

refer假设检验:https://www.jianshu.com/p/0daa59e481e3
其实假设检验本身,就是利用区间估计的手段,来检验假设的正确与否
区间估计

1、计算D的区间

已知theta,通过P(D|theta) 计算D的范围
【这里严格意义上来讲不算区间估计,因为这里并不是做参数估计的,但是其实本质上都是一样的,都是通过P(D|theta) or P(theta|D) 来获得区间上的概率,并计算出在一定概率范围(置信水平)下,变量属于的区间】
已知真实ctr,估计其进行n次曝光后,点击次数的区间分布:(已知分布,在总体均值u的基础上,对样本均值的区间估计)
具体例子:
比如,已知ctr=0.01,进行1000次曝光后,在95%置信区间内,点击数量为多少?

  • 计算方式:
    1、使用二项分布的高斯近似
    2、95%置信区间即是2sigma区间。sigma^2 = np*(1-p)=9.9,sigma= 9.9 ^ 0.5
    3、区间估计为ctr * n - 2sigma ~ ctr *n + 2sigma = [3.7, 16.2]

2、估计theta的区间

已知D,通过 P(theta|D)来估计theta的范围
已知在a广告 曝光n次点击m次,求a广告真实ctr的区间估计:(已知样本,在样本概率p的基础上,对总体概率p的范围进行估计)
具体例子:
a广告,曝光1000次,点击10次,求真实ctr区间:
即:样本来自于B(1000,p)的一次抽样,要预估p的区间。

正态区间:
  • 计算方式:
    1、首先,在没有先验的情况下,我们使用MLE最大似然进行估计,计为estimator \hat p


    2、其实对于X~B(n,p)来说,假设X中每个元素为Yi,则Yi~B(p)
    设,在X的一次抽样数据当中,有n个Y。
    所以estimator p_hat的variance可以推断如下:
    Var(\hat p) = Var(\frac {\sum y_i} n)
    =\frac {np(1-p)}{n^2}
    =\frac {p(1-p)}{n}
    PS:不过这里最主要的问题是,我们不知道真实的p


    3、根据2的var计算。假设\hat p本身也服从高斯分布(?),我们可以通过u和sigma计算出其区间:(这里直接拿MLE的估计\hat p代替了真实的p,所以有较大误差,消除误差的方式也很简单,见wilson score interval)
    \hat p \pm z\sqrt \frac {\hat p (1-\hat p )}{n}
    正太区间,z=1.96的时候为95%置信度

  • 关键点
    PS:在对p的估计中,其实我们都是在做逼近(approximation),所以要满足np》5、n(1-p)》5才能用:
    因为第一,我们用p_hat*(1-p_hat)/n只是方差的估计。第二,由于二项分布是离散的,而我们用的是连续的正态分布(normal distribution),所以其本身也只是来逼近

  • PS:
    可以速记:这里等价于p~N(p_hat, p_hat(1-p_hat)/n)
    这里我们其实可以验证一下,通过已知p的情况下,估计出d的范围,换算成已知d的情况下,推出p的范围,其期望值是一致的。【已知pCtr=0.01,在95%区间,1000次展现数据结果点击的范围为3.7~16.2。在已知10次点击,1000次展现的数据下,在95%区间,真实的pCtr区间为0.37%~1.62%】
    这里成功次数X的方差:np
    (1-p),p的方差:p*(1-p)/n,在形式上与样本均值方差与总体均值方差的关系类似,但是本质上不是一回事,也差了一个1/n,但推理方式倒是比较类似
    对于小样本(np<=5)的情况,可以用wilson score来做近似,改善正太区间对小样本不友好的问题。

威尔逊区间

即:
z的定义:
z = \frac {\hat p -p }{\sigma_n(p)}
(这里其实也就是Wilson 区间与正太区间的差异,对于正太区间,其实是:z = \frac {\hat p -p }{\sigma_n(\hat p)},注意分母不同,所以我们可以得到正太区间:p=\hat p - z\sigma_n(\hat p)
方差的定义:
\sigma_n(p)= \sqrt \frac {p(1-p)}{n}
通过上述式子建立等式:
(\hat p - p )^2= z^2 \frac {p(1-p)} n

联立上述两公式,解得p即可:


image.png

PS:
核心:使用高斯分布或者别的分布来对二项分布进行逼近。
伯努利分布:X~Bern(p) ,或者:X~B(1,p)
二项分布(n重伯努利):X~B(n,p)
高斯分布近似:X~N(np, np(1-p)),借此也可以推导出E=np,Sigma=np(1-p)
泊松分布近似:lambda=np

PSS:
计算样本均值的方差:
样本均值的方差S2=总体方差S1 / 样本容量n
【这里注意区分样本方差样本均值方差
【这里还有一个前提假设是,对于随机选取的样本Xi,其样本自身的方差与总体方差一致】
refer:https://www.zhihu.com/question/33394664
这个结论也非常符合直觉,即样本越大n,其均值约接近总体均值,即“样本均值的方差越小”。其实在t检验中,其分母就是样本均值的标准差。(样本内元素的sigma/样本容量n开根号)
Var(\overline X) = Var(\frac {\sum X_i}{N})=\frac {N \times Var(X)}{N^2}=\frac {Var(X)}{N}

PSS:
上述的其实都是频率学派的分析,那么我们怎么加入贝叶斯的思想。其实贝叶斯的关键就是,我们是否有一个前置的信念(prior belief)。譬如,我们对这个工厂生产的硬币已经有足够多的历史数据,获得了它们重量分布(p)的一个先验分布。那么我们便可以使用这个先验分布(prior)与该硬币的实验数据(evidence)一起推断出后验的分布(posterior)

Refer:
[1]关于二项分布的各种区间计算:
https://en.wikipedia.org/wiki/Binomial_proportion_confidence_interval

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,128评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,316评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,737评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,283评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,384评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,458评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,467评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,251评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,688评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,980评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,155评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,818评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,492评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,142评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,382评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,020评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,044评论 2 352

推荐阅读更多精彩内容