解决的问题:
已经一个训练集,给定数据x,求y
含义:
朴素贝叶斯是基于贝叶斯定理与特征条件独立假设的分类方法。
- 为什么是基于贝叶斯定理:由训练数据求后验概率需要用到。
- 为什么需要特征条件独立假设:减少联合分布的参数数量。从减少到。这一点比较重要,后面在数学论证的时候会进行说明。
数学推理
定义:
已知训练数据集,N为训练数据的个数
输出空间,Y有K种取值
输入空间,X是n维向量,其中,有种取值
推导:
- 计算先验概率分布,这个通过训练数据可以得出,通过统计(第k个标签出来的次数)/(总数据量)
- 计算条件概率分布,因为X是n维的向量,所以这个分布是需要对每一维数据进行考虑的。在Y已经确定的情况下,一共有这么多种取值,再加上Y为K种取值,整个条件分布就会有种可能,你需要这么多个参数去描述这个分布,很显然不现实。
这个时候就需要特征条件独立的假设。
现在假设输入空间X的每一维是相互独立的,前面的条件概率分布可以重写。
从上式中可以看出,本来的n维向量的联合分布被简化成多个条件分布的乘积,可这个条件分布是可以通过训练计算得到的。 - 计算后验分布
这个时候就需要用到贝叶斯定理了。,最后可以得到
跟在前面都统计出来了,需要做的就是遍历一个c_k,求出每一种情况的概率,找到最大值即可。