机器学习实战——贝叶斯

  • 贝叶斯需要注意的问题1

    • 利用贝叶斯分类器对文档进行分类时,要计算多个概率的成绩以获得文档属于某个类别c1的概率,即计算p(w0|c1)p(w1|c1)p(w2|1)...p(wn|c1);
    • 如果一个概率位0,那么最后结果也位0
    • 为此,可以将所有的词出现的次数化为1,并将分母初始化位2
  • 贝叶斯需要注意的问题2

    • 利用贝叶斯分类器对文档进行分类时,要计算多个概率的成绩以获得文档属于某个类别c1的概率,即计算p(w0|c1)p(w1|c1)p(w2|1)...p(wn|c1);
    • 由于大部分银子都非常小,所以程序会下溢出,或者得不到正确答案。
    • 解决办法:对乘积取对数log
  • 文档分类算法的改进

    • calcMostFreq(vocabList, fullText) 获取高频词,从vocabList中删除高频词
  • RSS的问题待确认

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容