AI直通车 day05 笔记-朴素贝叶斯公式推导过程

1.条件概率
$P(A|B) = \cfrac{P(AB)}{P(B)}$

2.很显然可以得到：

$P(AB) = P(A|B)P(B) = P(B|A)P(A)$
3.继续推导可以得到：

$P(B|A) = \frac{P(AB)}{P(A)}$
4.（4）全概率公式（这里只给公式，先前条件就不提了）：

$P(A) = \sum^{n}_{i=1} P({B_i})P(A|{B_i})$

推导过程：

有了上面这几个公式，基本就可以满足要求了，下面，开始推导朴素的贝叶斯分类器，主要参考李航的《统计学习方法》中的过程。先提出问题，现在给出一堆数据或者是训练集:
$T = ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x n , y n ) T = {(x_1, y_1), (x_2, y_2), ..., (x_n, y_n)}$
解释：x表示特征（可能有多个特征），y表示标签（可能是多个标签哦）。

朴素贝叶斯算法对条件概率分布做了条件独立性的假设，所以具体的条件独立性假设是：

公式1： $P({ X=x} | {Y=c_k}) = P({X^{(1)}=x^{(1)}, ..., X^{(n)}=x^{(n)}}|{Y=c_k})=\prod _{j=1}^n P(X^{(j)}=x^{(j)}|Y=c_k)P(X=x∣Y=c k)$
解释： $c_k$ 表示标签 Y 中的一个值， $X ( 1 ) = x ( 1 ) , . . . , X ( n ) = x ( n ) {X^{(1)}=x^{(1)}, ..., X^{(n)}=x^{(n)}}$
表示一组向量，可能有n个特征，为什么连乘？因为假设相互独立。

公式2： $P(Y=c_k|X=x)=\frac{P(Y=c_k\bigcap X=x)}{P(X=x)}=\frac{P(X=x|Y=c_k)P(Y=c_k)}{\sum_{k} P( X=x| Y=c_k)P(Y=c_k)}$

解释： $P(X=x)$ 这个值要通过全概率公式来求，即 $\sum_{k} P( X=x| Y=c_k)P(Y=c_k)$

现在，把公式1带入公式2得：
公式3： $P(Y=c_k|X=x)= \frac{P(Y=c_k) \prod _{j} P(X^{(j)}=x^{(j)}|Y=c_k)}{\sum_{k} P(Y=c_k) \prod _{j} P(X^{(j)}=x^{(j)}|Y=c_k)}$
其中k = 1 , 2 , 3... , K k=1,2,3...,Kk=1,2,3...,K
公式4： $y=f(x)=argmax _{c_k}\frac{P(Y=c_k) \prod _{j} P(X^{(j)}=x^{(j)}|Y=c_k)}{\sum_{k} P(Y=c_k) \prod _{j} P(X^{(j)}=x^{(j)}|Y=c_k)}$
解释：这个公式的意思就是，在所有的标签中，选择一个最大的后验概率那个标签，作为本次分类的结果。很显然，在最大化后验概率的时，公式4中的分母是相同的，所以可以进一步化简得到：

公式5： $y=f(x)=argmax _{c_k}P(Y=c_k) \prod _{j} P(X^{(j)}=x^{(j)}|Y=c_k)$

AI直通车 day05 笔记-朴素贝叶斯公式推导过程

推导过程：

推荐阅读更多精彩内容