读到了一篇不错的关于贝叶斯方法和贝叶斯网络的文章,整理一下理解和思考。
概率和统计是两个非常相关的概念,大家印象里很容易把统计变量等同于某个概率值或概率分布,但对于不同的统计方法而言,如何看待统计变量是存在区别的。
对于某个待推断的统计变量,频率学派认为是一个固定变量,给定了一系列随机样本后,通过计算频率来估计样本的分布,从而确定。相反,贝叶斯学派认为也是随机变量,在没有观察到任何样本之前,人们可以对有一个主观的猜测,通常表示为先验分布。而当观察到样本后X,先验分布会被逐渐修正为后验分布,从而逼近真正的取值。
既然贝叶斯方法中,需要由后验分布来估计统计变量,那么一个重要的问题是如何计算后验分布。这里就需要引入贝叶斯公式: 。
可以看到,后验分布是先验分布通过乘以某个修正因子得到的。这里被称为Likelihood,表示已知,样本X发生的概率;称为联合分布,表示同时发生的概率;则代表样本X发生的边缘分布,可以通过将联合分布对积分求得。
在实践中,我们一般取使后验概率分布最大的作为估计,也即最大后验估计。对于给定的X,一般认为也是固定的,因此最大后验估计也就被转化为最大化。
以上方法被广泛应用在各类问题中,比如应用朴素贝叶斯算法解决垃圾邮件分类,应用noisy channel model解决拼写检查。
参考:
从贝叶斯方法谈到贝叶斯网络