0x01 概述
贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。
0x02 贝叶斯定理
P(A|B)表示在事件B的条件下事件A发生的概率,其公式为
贝叶斯定理就是已知P(A|B),求P(B|A),其公式为
0x03 贝叶斯分类原理
贝叶斯分类的基本思想:对于给定的待分类项,求在该项成立的条件下,各类别成立的概率,哪个概率大,就属于哪个类别。
假设某个体有n项特征(Feature),分别为F1、F2、...、Fn。现有m个类别(Category),分别为C1、C2、...、Cm。贝叶斯分类器就是计算出概率最大的那个分类,也就是求下面这个算式的最大值:
P(C|F1F2...Fn)
= P(F1F2...Fn|C)P(C) / P(F1F2...Fn)
对于每一类,P(F1F2...Fn)都是相同的,一次只需要求
P(F1F2...Fn|C)P(C)
的最大值
假设F1F2..Fn各项特征相互独立,那么
P(F1F2..Fn|C)P(C) = P(F1|C)P(F2|C)...P(Fn|C)P(C)
上述等号右边的项统计资料里都存在,因此可以求出其最大值。
不过上述假设所有特征相互独立在现实生活中很难成立,但是可以简化计算过程。
0x04 特征属性为连续值的讨论
首先需要明确的是离散值与连续值的概念。
在给定区间中,连续值表示可以选择该区间的任意值,而离散值表示只能有若干个点可以选择。
在上文中的特征属性要求都是离散值的,那么当特征属性是连续值的话该怎么办呢?
当特征属性为连续值的时候,我们假定其服从高斯分布(正态分布):
因此只要计算个类别中的均值和平均差,带入公式即可。
0x05 参考文献
http://www.cnblogs.com/leoo2sk/archive/2010/09/17/naive-bayesian-classifier.html
http://www.cnblogs.com/maybe2030/p/4655338.html