计算特征值取某个值的概率时涉及了一些概率知识, 那里我们先统计特征在数据集中取某个特定值次数, 然后除以数据集的实例总数 ,就得到了特征取该值的概率。
我们现在用p1(x,y) 表示数据点(x,y)属于类别1的概率,用p2(x,y)表示数据点(x,y)属于类别2的概率,
那么对于一个新数据点(x,y),可以用下面的规则来判断它的类别:
□ 如果p1(x,y), > p2 (x,y), 那么类别为1。
□如 果 p2 (x,y), > p1(x,y), 那么类别为2。
也就是说,我们会选择高概率对应的类别。这就是贝叶斯决策理论的核心思想,即选择具有 最高概率的决策
如果特征之间相互独立,所谓独立指的是统计意义上的独立,即一个特征或者单词出现的可能性与它和其他单词相邻没有关系, 这个假设正 是朴素贝叶斯分类器中朴素一词的含义。当然,我们知道这种假设并不正确。
朴素贝叶斯分类器中的另一个假设是,每个特征同等重要®。其实这个假设也有问题。如果要判断留言板的留言是否得当,那么可能不需要看 完所有的1000个单词,而只需要看10~20个特征就足以做出判断了。尽管上述假设存在一些小的 瑕疵,但朴素贝叶斯的实际效果却很好。
训练算法:从词向量计算概率
计算每个类别中的文档数目
对每篇训练文档:
对每个类别:
如果词条出现文档中―增加该词条的计数值
增加所有词条的计数值
对每个类别:
对每个词条:
将该词条的数目除以总词条数目得到条件概率
返回每个类别的条件概率
我们将每个词的出现与否作为一个特征,这可以被描述为词集模型。如果一个词在文档中出现不止一次,这可能意味着包含该词是否出现在文档中所不能表 达的某种信息,这种方法被称为词袋模型