9. 证据和概率

Fundamental concepts:Explicit evidence combination with Bayes' Rule(结合贝叶斯规则的明确的证据);Probabilistic reasoning via assumptions of conditional independence(通过条件独立性假设来进行概率推理)

Exemplary techniques:Naive Bayes classification(朴素贝叶斯分类器);Evidence lift(证据提升)


Example:Targeting Online Consumers With Advertisements(例子,给线上消费者推送广告)

例子说明:

在网站上帮Luxhote酒店打广告,给前百分之多少的用户发送广告,然后目标变量是这些用户是否会在一周内预定酒店。


Combining Evidence Probabilistically(基于概率来组合证据)

基于上面的案例来讲,假如事件C是给所有人发广告,假设p(C)=0.0001,那么给10000人发广告,会有一个人来预定。

p(C\vert E)表示在E这个条件下,C发生的概率,即证据组合下的概率。(条件在后,当前概率在前)


Joint Probability and Independence(联合概率及独立性)

有两个事件A和B,p(AB)就是A和B同时发生的概率,名字就叫联合概率。

如果A和B是独立事件,那么有:p(AB)=p(A)\cdot p(B)。(这块可以复习下概率论)

公式9-1:条件概率下的联合概率计算

p(AB)=p(A)\cdot p(B\vert A)


Bayes' Rule(贝叶斯规则)

通过上面的公式可以得到如下的推理公式:

p(A)\cdot p(B\vert A)=p(AB)=p(B)\cdot p(A\vert B)

p(A)\cdot p(B\vert A)=p(B)\cdot p(A\vert B)

两边同时除以p(A)得到:

p(B\vert A)=\frac{p(A\vert B)\cdot p(B)}{p(A)}

现在假设A是我们已经掌握的证据即条件(E),B是我们想要研究的假设评估即要计算的可能性(H),那么有:

p(H\vert E)=\frac{p(E\vert H)\cdot p(H)}{p(E )}

这个公式就是贝叶斯规则,贝叶斯规则的好处是,一般统计中p(E\vert H)p(E)p(H)p(H\vert E)更加容易得到,故使用等式右侧3个参数来对左侧参数进行计算。


Applying Bayes' Rule to Data Science(在数据科学中应用贝叶斯规则)

现在来使用贝叶斯规则处理一个分类问题,令C=c为特定的某个分类,则有下式9-2:

p(C=c\vert E)=\frac{p(E\vert C=c)\cdot p(C=c)}{p(E)}

公式9-2左侧是我们要评估的类别中样本数量,这里式子左侧的就是考虑到E已经发生的情况下,C=c的概率,我们称之为“后验概率”

p(C=c)称为“先验概率”,即独立去分类不考虑E时,c在全样本中的概率。

但是实际应用中会遇到一个计算p(E)的难点,就是样本集中的许多个特征,都会影响E,那么就要求出p(E\vert c)=p(e_{1}\land e_{2}\land\cdot \cdot \cdot e_{k}\vert c   ),来计算公式左侧值,问题是基本不会有这e1到ek都满足的变量,统计中通常用独立性强假设来处理这个问题,具体方法见下个小节。


Conditional Independence and Naive Bayes(条件独立性和朴素贝叶斯)

条件独立性是把之前讨论的无条件独立性进行变式,去掉了独立性假设,扩展了\vert C条件,如下式:

p(AB\vert C)=p(A\vert C)\cdot p(B\vert AC)

这里我们假设A和B,在给定条件C(C已发生)的情况下,是条件独立的,可以将上式进行简化,如下:

p(AB\vert C)=p(A\vert C)\cdot p(B\vert C)

根据这个条件独立性的简化公式,我们可以把前面的计算进行大量简化,我们用c来表示C=c,公式表示如下:

p(E\vert c)=p(e_{1} \land e_{2} \land\cdot \cdot \cdot e_{k} \land\vert c)=p(e_{1}\vert c)\cdot p(e_{2}\vert c)\cdot \cdot \cdot p(e_{k}\vert c)

公式中,每个p(e_{i}\vert c)都可以被独立计算出来,结合上式和公式9-2,我们可以得到朴素贝叶斯公式,如下公式9-3:

p(c\vert E)=\frac{p(e_{1}\vert c )\cdot p(e_{2}\vert c )\cdot\cdot \cdot p(e_{k}\vert c )\cdot p(c)}{p(E)}

这里p(E)也比较难计算,但是p(E)不一定是必要计算的量,有以下两个方面原因:

1. 通常我们是要对每个c的概率进行对比,那么我们只需要对各个c的概率结果比大小即可;

2. 如果确实要计算p(E)的数值,那么由于每个元素仅属于一个c分类,样本互相独立并明确(比如定酒店问题中,要么是会预定c_{0}  ,要么是不会预定 c_{1}  ),那么可以得到下式的结果:

p(E)=p(E\land c_{0}  )+p(E\land  c_{1}  )=p(E\vert  c_{0}  )\cdot p(c_{0} )+p(E\vert  c_{1}  )\cdot p(c_{1} )

在独立性假设的前提下,上式可以变式如下:

p(E)=p(e_{1}\vert c_{0}  )\cdot p(e_{2}\vert c_{0}  )\cdot \cdot \cdot p(e_{k}\vert c_{0}  )\cdot p(c_{0} )+p(e_{1}\vert c_{1}  )\cdot p(e_{2}\vert c_{1}  )\cdot \cdot \cdot p(e_{k}\vert c_{1}  )\cdot p(c_{1} )

结合此式和公式9-3,我们可以得到一个计算后验概率的简单公式如下:

p(c_{0} \vert E)=\frac{p(e_{1}\vert c_{0}  )\cdot p(e_{2}\vert c_{0}  )\cdot \cdot \cdot p(e_{k}\vert c_{0}  )\cdot p(c_{0} ) }{p(e_{1}\vert c_{0}  )\cdot p(e_{2}\vert c_{0}  )\cdot \cdot \cdot p(e_{k}\vert c_{0}  )\cdot p(c_{0} )+p(e_{1}\vert c_{1}  )\cdot p(e_{2}\vert c_{1}  )\cdot \cdot \cdot p(e_{k}\vert c_{1}  )\cdot p(c_{1} )}

虽然公式中有许多项,但每个部分都要么是某个特征值的权重,要么是某个先验概率,都相对容易取值运算。


Advantages and Disadvantages of Naive Bayes(朴素贝叶斯的优势和短板)

优势1:朴素贝叶斯在分类问题任务中通常表现良好,其对独立性假设的违反并没有影响分类器结果,如果A和B两个特征是关联的,在朴素贝叶斯中,会被单独的和分类结果c发生联系,导致指向c的计算概率结果上升。实际分类问题中,通常是挑选几率最大的值(多个概率值相比较),所以统一的向一个方向的概率便宜不会有大的负面影响。

优势2:朴素贝叶斯是一个逐步学习模型,也就是说朴素贝叶斯在进行新的样本学习后,可以直接对模型进行修改,而不需要把原先所有的样本再统一重新学习一次。

sidebar:Variants of Naive Bayes(朴素贝叶斯变式)

这里我们把所有特征都变成了支持或反对将元素归类到某个分类的一个二元特征,但是当回到文本分析或网页分析时,特征值就变成了每一个单词,单词的出现的频率或次数。

这里朴素贝叶斯也会遇到一个问题,那就是在进行计算的时候,无论是分类二元问题还是文本或网站检索的多特征问题,都只集中在哪些元素是用户偏好的,而对于用户排斥的元素,并没有进行合理地运算。


A Model of Evidence “Lift”(一个证据“提升”的模型)

这里的lift指几率提升,比如,如果随机抽取的用户群的酒店预订率是0.01%,而我们通过模型选出的用户群的预定率是0.02%,那么我们就说这里有一个2倍提升(lift of 2),被选中的用户翻倍了预订率。

在这里我们改一下贝叶斯的假设,使用全特征严格互相独立假设,而不是之前的条件独立假设,也可以叫Naive-Naive Bayes,“朴素朴素贝叶斯”,因为这种情况下进行了更加简化的假设。

在全要素严格独立假设下,Naive-Naive Bayes的公式如下9-3

p(c\vert E)=\frac{p(e_{1} \vert c)\cdotp(e_{2} \vert c) \cdot \cdot \cdot p(e_{k} \vert c) \cdot p(c)}{p(e_{1})\cdot p(e_{2} )\cdot \cdot \cdot p(e_{k} )}

这个公式可以进行变式得到“概率作为产品的条件提升”,如下式9-4

p(c\vert E)=p(c)\cdot lift_{c} (e_{1} )\cdot  lift_{c} (e_{2} )\cdot \cdot \cdot

上式中, lift_{c} (x)定义为:

 lift_{c} (x)=\frac{p(x\vert c)}{p(x)}

这里的 lift 可以理解成对一个预估概率的不断修复的过程,每一个新出现的 lift_{c} (x)都会对p(c)进行一次修正,从而使计算结果p(c\vert E)变得更加准确,举个例子如下:

用户预订酒店的先验概率是0.0001,如果他浏览了一个财务网站,那么就给这个概率乘以2,如果他浏览了拖车网站就再乘以0.25,以此类推,把所有的e_{i} 都计入运算后,得到的z_{f} 就是最终概率。

但是如果这些e_{i} 不是互相独立的条件的话,每一次的模型迭代都会使概率偏离,所以此时就需要在概率中加盐。


Example:Evidence Lifts from Facebook “Likes”(从脸书的“喜欢”中进行证据升格)

这里讲了通过脸书里面人们点击喜欢的电影来判断一个人是否高智商的场景,列出来了n个电影,分别有自己的lift系数,如果用户点击了喜欢这些电影,那么就用先验概率逐个乘以这些电影的lift系数,最后得到这个人高智商的一个概率。


Evidence in Action:Targeting Consumers with Ads(证据行动:给广告找目标用户)

提供了一个数据源,让用朴素贝叶斯来验证,但是给的下载数据的链接不能用了,跳过吧不看这个小节了,气。


summary

贝叶斯方法及其推论用途太广泛了,本章结束。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,732评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,496评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,264评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,807评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,806评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,675评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,029评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,683评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,704评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,666评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,773评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,413评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,016评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,204评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,083评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,503评论 2 343