简单粗暴的贝叶斯分类

最近在自己看statistical learning的东西, 接触了各种很数学的回归和建模, 今天在预习下午的AI课的时候看到了这个naive bayes classifier, 感觉上手比较容易, 遂记录一下.

假设Y为因, X为果(画一个BN graph就是一个parent有很多children), 且知 P(X|Y), 求P(Y|X). 其实这是一个非常简单的贝叶斯问题, 通过套公式就能得出. 我所钦佩的是这个公式可以在document classification中进行应用, 非常简洁. Y就是文档的分类, X就是字典中所有词是否在Y=y这篇文章中出现. 那么对文档进行分类就是 P(Y|X) = P(X|Y)*P(Y)/P(X). P(Y)和P(X|Y)都是很容易计算的, P(X)其实也很好算, 就是 SUM(P(X|Y)*P(Y)), according to marginalization rule. 

这种分类不需要复杂的建模, 分析test error/ standard error之类的, 给人很清爽的感觉. 但也比较局限, 因为它假设xi 之间没有correlation given Y, 但实际生活中predictors之间是有影响的. 可喜的是真正应用中这种分类的效果也不差.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容