9. 证据和概率

Fundamental concepts：Explicit evidence combination with Bayes' Rule（结合贝叶斯规则的明确的证据）；Probabilistic reasoning via assumptions of conditional independence（通过条件独立性假设来进行概率推理）

Exemplary techniques：Naive Bayes classification（朴素贝叶斯分类器）；Evidence lift（证据提升）

Example：Targeting Online Consumers With Advertisements（例子，给线上消费者推送广告）

例子说明：

在网站上帮Luxhote酒店打广告，给前百分之多少的用户发送广告，然后目标变量是这些用户是否会在一周内预定酒店。

Combining Evidence Probabilistically（基于概率来组合证据）

基于上面的案例来讲，假如事件C是给所有人发广告，假设 $p(C)=0.0001$ ，那么给10000人发广告，会有一个人来预定。

$p(C\vert E)$ 表示在E这个条件下，C发生的概率，即证据组合下的概率。（条件在后，当前概率在前）

Joint Probability and Independence（联合概率及独立性）

有两个事件A和B， $p（AB）$ 就是A和B同时发生的概率，名字就叫联合概率。

如果A和B是独立事件，那么有： $p(AB)=p(A)\cdot p(B)$ 。（这块可以复习下概率论）

公式9-1：条件概率下的联合概率计算

$p(AB)=p(A)\cdot p(B\vert A)$

Bayes' Rule（贝叶斯规则）

通过上面的公式可以得到如下的推理公式：

$p(A)\cdot p(B\vert A)=p(AB)=p(B)\cdot p(A\vert B)$

$p(A)\cdot p(B\vert A)=p(B)\cdot p(A\vert B)$

两边同时除以 $p(A)$ 得到：

$p(B\vert A)=\frac{p(A\vert B)\cdot p(B)}{p(A)}$

现在假设A是我们已经掌握的证据即条件（E），B是我们想要研究的假设评估即要计算的可能性（H），那么有：

$p(H\vert E)=\frac{p(E\vert H)\cdot p(H)}{p(E )}$

这个公式就是贝叶斯规则，贝叶斯规则的好处是，一般统计中 $p(E\vert H)$ 、 $p(E)$ 、 $p(H)$ 比 $p(H\vert E)$ 更加容易得到，故使用等式右侧3个参数来对左侧参数进行计算。

Applying Bayes' Rule to Data Science（在数据科学中应用贝叶斯规则）

现在来使用贝叶斯规则处理一个分类问题，令 $C=c$ 为特定的某个分类，则有下式9-2：

$p(C=c\vert E)=\frac{p(E\vert C=c)\cdot p(C=c)}{p(E)}$

公式9-2左侧是我们要评估的类别中样本数量，这里式子左侧的就是考虑到E已经发生的情况下， $C=c$ 的概率，我们称之为“后验概率”。

$p(C=c)$ 称为“先验概率”，即独立去分类不考虑E时，c在全样本中的概率。

但是实际应用中会遇到一个计算 $p(E)$ 的难点，就是样本集中的许多个特征，都会影响E，那么就要求出 $p(E\vert c)=p(e_{1}\land e_{2}\land\cdot \cdot \cdot e_{k}\vert c )$ ，来计算公式左侧值，问题是基本不会有这e1到ek都满足的变量，统计中通常用独立性强假设来处理这个问题，具体方法见下个小节。

Conditional Independence and Naive Bayes（条件独立性和朴素贝叶斯）

条件独立性是把之前讨论的无条件独立性进行变式，去掉了独立性假设，扩展了 $\vert C$ 条件，如下式：

$p（AB\vert C）=p(A\vert C)\cdot p(B\vert AC)$

这里我们假设A和B，在给定条件C（C已发生）的情况下，是条件独立的，可以将上式进行简化，如下：

$p（AB\vert C）=p(A\vert C)\cdot p(B\vert C)$

根据这个条件独立性的简化公式，我们可以把前面的计算进行大量简化，我们用c来表示 $C=c$ ，公式表示如下：

$p(E\vert c)=p(e_{1} \land e_{2} \land\cdot \cdot \cdot e_{k} \land\vert c)=p(e_{1}\vert c)\cdot p(e_{2}\vert c)\cdot \cdot \cdot p(e_{k}\vert c)$

公式中，每个 $p(e_{i}\vert c)$ 都可以被独立计算出来，结合上式和公式9-2，我们可以得到朴素贝叶斯公式，如下公式9-3：

$p(c\vert E)=\frac{p(e_{1}\vert c )\cdot p(e_{2}\vert c )\cdot\cdot \cdot p(e_{k}\vert c )\cdot p(c)}{p(E)}$

这里 $p（E）$ 也比较难计算，但是 $p（E）$ 不一定是必要计算的量，有以下两个方面原因：

1. 通常我们是要对每个c的概率进行对比，那么我们只需要对各个c的概率结果比大小即可；

2. 如果确实要计算 $p（E）$ 的数值，那么由于每个元素仅属于一个c分类，样本互相独立并明确（比如定酒店问题中，要么是会预定 $c_{0}$ ，要么是不会预定 $c_{1}$ ），那么可以得到下式的结果：

$p(E)=p(E\land c_{0} )+p(E\land c_{1} )=p(E\vert c_{0} )\cdot p(c_{0} )+p(E\vert c_{1} )\cdot p(c_{1} )$

在独立性假设的前提下，上式可以变式如下：

$p(E)=p(e_{1}\vert c_{0} )\cdot p(e_{2}\vert c_{0} )\cdot \cdot \cdot p(e_{k}\vert c_{0} )\cdot p(c_{0} )+p(e_{1}\vert c_{1} )\cdot p(e_{2}\vert c_{1} )\cdot \cdot \cdot p(e_{k}\vert c_{1} )\cdot p(c_{1} )$

结合此式和公式9-3，我们可以得到一个计算后验概率的简单公式如下：

$p(c_{0} \vert E)=\frac{p(e_{1}\vert c_{0} )\cdot p(e_{2}\vert c_{0} )\cdot \cdot \cdot p(e_{k}\vert c_{0} )\cdot p(c_{0} ) }{p(e_{1}\vert c_{0} )\cdot p(e_{2}\vert c_{0} )\cdot \cdot \cdot p(e_{k}\vert c_{0} )\cdot p(c_{0} )+p(e_{1}\vert c_{1} )\cdot p(e_{2}\vert c_{1} )\cdot \cdot \cdot p(e_{k}\vert c_{1} )\cdot p(c_{1} )}$

虽然公式中有许多项，但每个部分都要么是某个特征值的权重，要么是某个先验概率，都相对容易取值运算。

Advantages and Disadvantages of Naive Bayes（朴素贝叶斯的优势和短板）

优势1：朴素贝叶斯在分类问题任务中通常表现良好，其对独立性假设的违反并没有影响分类器结果，如果A和B两个特征是关联的，在朴素贝叶斯中，会被单独的和分类结果c发生联系，导致指向c的计算概率结果上升。实际分类问题中，通常是挑选几率最大的值（多个概率值相比较），所以统一的向一个方向的概率便宜不会有大的负面影响。

优势2：朴素贝叶斯是一个逐步学习模型，也就是说朴素贝叶斯在进行新的样本学习后，可以直接对模型进行修改，而不需要把原先所有的样本再统一重新学习一次。

sidebar：Variants of Naive Bayes（朴素贝叶斯变式）

这里我们把所有特征都变成了支持或反对将元素归类到某个分类的一个二元特征，但是当回到文本分析或网页分析时，特征值就变成了每一个单词，单词的出现的频率或次数。

这里朴素贝叶斯也会遇到一个问题，那就是在进行计算的时候，无论是分类二元问题还是文本或网站检索的多特征问题，都只集中在哪些元素是用户偏好的，而对于用户排斥的元素，并没有进行合理地运算。

A Model of Evidence “Lift”（一个证据“提升”的模型）

这里的lift指几率提升，比如，如果随机抽取的用户群的酒店预订率是0.01%，而我们通过模型选出的用户群的预定率是0.02%，那么我们就说这里有一个2倍提升（lift of 2），被选中的用户翻倍了预订率。

在这里我们改一下贝叶斯的假设，使用全特征严格互相独立假设，而不是之前的条件独立假设，也可以叫Naive-Naive Bayes，“朴素朴素贝叶斯”，因为这种情况下进行了更加简化的假设。

在全要素严格独立假设下，Naive-Naive Bayes的公式如下9-3：

$p(c\vert E)=\frac{p(e_{1} \vert c)\cdotp(e_{2} \vert c) \cdot \cdot \cdot p(e_{k} \vert c) \cdot p(c)}{p(e_{1})\cdot p(e_{2} )\cdot \cdot \cdot p(e_{k} )}$

这个公式可以进行变式得到“概率作为产品的条件提升”，如下式9-4：

$p(c\vert E)=p(c)\cdot lift_{c} (e_{1} )\cdot lift_{c} (e_{2} )\cdot \cdot \cdot$

上式中， $lift_{c} (x)$ 定义为：

$lift_{c} (x)=\frac{p(x\vert c)}{p(x)}$

这里的 lift 可以理解成对一个预估概率的不断修复的过程，每一个新出现的 $lift_{c} (x)$ 都会对 $p（c）$ 进行一次修正，从而使计算结果 $p(c\vert E)$ 变得更加准确，举个例子如下：

用户预订酒店的先验概率是0.0001，如果他浏览了一个财务网站，那么就给这个概率乘以2，如果他浏览了拖车网站就再乘以0.25，以此类推，把所有的 $e_{i}$ 都计入运算后，得到的 $z_{f}$ 就是最终概率。

但是如果这些 $e_{i}$ 不是互相独立的条件的话，每一次的模型迭代都会使概率偏离，所以此时就需要在概率中加盐。

Example：Evidence Lifts from Facebook “Likes”（从脸书的“喜欢”中进行证据升格）

这里讲了通过脸书里面人们点击喜欢的电影来判断一个人是否高智商的场景，列出来了n个电影，分别有自己的lift系数，如果用户点击了喜欢这些电影，那么就用先验概率逐个乘以这些电影的lift系数，最后得到这个人高智商的一个概率。

Evidence in Action：Targeting Consumers with Ads（证据行动：给广告找目标用户）

提供了一个数据源，让用朴素贝叶斯来验证，但是给的下载数据的链接不能用了，跳过吧不看这个小节了，气。

summary

贝叶斯方法及其推论用途太广泛了，本章结束。