AI直通车 day05 笔记-朴素贝叶斯公式推导过程

1.条件概率
P(A|B) = \cfrac{P(AB)}{P(B)}

2.很显然可以得到:

P(AB) = P(A|B)P(B) = P(B|A)P(A)
3.继续推导可以得到:

P(B|A) = \frac{P(AB)}{P(A)}
4.(4)全概率公式(这里只给公式,先前条件就不提了):

P(A) = \sum^{n}_{i=1} P({B_i})P(A|{B_i})

推导过程:

有了上面这几个公式,基本就可以满足要求了,下面,开始推导朴素的贝叶斯分类器,主要参考李航的《统计学习方法》中的过程。先提出问题,现在给出一堆数据或者是训练集:
T = ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x n , y n ) T = {(x_1, y_1), (x_2, y_2), ..., (x_n, y_n)}
解释:x表示特征(可能有多个特征),y表示标签(可能是多个标签哦)。

朴素贝叶斯算法对条件概率分布做了条件独立性的假设,所以具体的条件独立性假设是:

公式1:P({ X=x} | {Y=c_k}) = P({X^{(1)}=x^{(1)}, ..., X^{(n)}=x^{(n)}}|{Y=c_k})=\prod _{j=1}^n P(X^{(j)}=x^{(j)}|Y=c_k)P(X=x∣Y=c k)
解释:c_k 表示标签 Y 中的一个值,X ( 1 ) = x ( 1 ) , . . . , X ( n ) = x ( n ) {X^{(1)}=x^{(1)}, ..., X^{(n)}=x^{(n)}}
表示一组向量,可能有n个特征,为什么连乘?因为假设相互独立。

公式2:P(Y=c_k|X=x)=\frac{P(Y=c_k\bigcap X=x)}{P(X=x)}=\frac{P(X=x|Y=c_k)P(Y=c_k)}{\sum_{k} P( X=x| Y=c_k)P(Y=c_k)}

解释:P(X=x)这个值要通过全概率公式来求,即 \sum_{k} P( X=x| Y=c_k)P(Y=c_k)

现在,把公式1带入公式2得:
公式3:P(Y=c_k|X=x)= \frac{P(Y=c_k) \prod _{j} P(X^{(j)}=x^{(j)}|Y=c_k)}{\sum_{k} P(Y=c_k) \prod _{j} P(X^{(j)}=x^{(j)}|Y=c_k)}
其中k = 1 , 2 , 3... , K k=1,2,3...,Kk=1,2,3...,K
公式4:y=f(x)=argmax _{c_k}\frac{P(Y=c_k) \prod _{j} P(X^{(j)}=x^{(j)}|Y=c_k)}{\sum_{k} P(Y=c_k) \prod _{j} P(X^{(j)}=x^{(j)}|Y=c_k)}
解释:这个公式的意思就是,在所有的标签中,选择一个最大的后验概率那个标签,作为本次分类的结果。很显然,在最大化后验概率的时,公式4中的分母是相同的,所以可以进一步化简得到:

公式5:y=f(x)=argmax _{c_k}P(Y=c_k) \prod _{j} P(X^{(j)}=x^{(j)}|Y=c_k)

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容