转自微信公众号:机器学习算法与Python学习
朴素贝叶斯:
注意点:
1. 如果给出的特征向量长度可能不同,需要归一化为同长度的向量(这里以文本分类为例),比如是句子单词的话,则长度为整个词汇量的长度,对应位置是该单词出现的次数。
2. 计算公式:
其中条件概率可以通过朴素贝叶斯独立条件展开,
因此一般有两种,一种是在类别ci的那些样本集中,找到wj出现次数的综合,然后除以样本的总和。第二种方法是类别为ci的那些样本集中,找到wj出现的次数,然后除以该样本所有特征出现次数的总和。
3. 如果P(w|ci)中的某一项为0,则其联合概率乘积也可能为0,。为了避免这种现象出现,一般会将这一项初始化为1,为了保证概率相当分母初始化为k(表示k类)叫做拉普拉斯平滑
朴素贝叶斯的优点:对小规模数据表现很好,适合多分类任务,适合增量式训练。
缺点:对数据的表达形式很敏感
问题延伸:大家都知道朴素贝叶斯是一种分类监督算法,那么朴素贝叶斯可以用来聚类吗?
答案是可以的。
如果将贝叶斯方法进行聚类,可以把每个样本看成单独一类,用层次聚类的方法,依次找到后验概率最大的样本然后将它们聚合在一起。