朴素贝叶斯

转自微信公众号:机器学习算法与Python学习

朴素贝叶斯:

注意点:

1. 如果给出的特征向量长度可能不同,需要归一化为同长度的向量(这里以文本分类为例),比如是句子单词的话,则长度为整个词汇量的长度,对应位置是该单词出现的次数。

2. 计算公式:

其中条件概率可以通过朴素贝叶斯独立条件展开,

因此一般有两种,一种是在类别ci的那些样本集中,找到wj出现次数的综合,然后除以样本的总和。第二种方法是类别为ci的那些样本集中,找到wj出现的次数,然后除以该样本所有特征出现次数的总和。

3. 如果P(w|ci)中的某一项为0,则其联合概率乘积也可能为0,。为了避免这种现象出现,一般会将这一项初始化为1,为了保证概率相当分母初始化为k(表示k类)叫做拉普拉斯平滑

朴素贝叶斯的优点:对小规模数据表现很好,适合多分类任务,适合增量式训练。

缺点:对数据的表达形式很敏感

问题延伸:大家都知道朴素贝叶斯是一种分类监督算法,那么朴素贝叶斯可以用来聚类吗?

答案是可以的。

如果将贝叶斯方法进行聚类,可以把每个样本看成单独一类,用层次聚类的方法,依次找到后验概率最大的样本然后将它们聚合在一起。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容