前言
从上一篇PGM(Probabilistic Graphical Models)系列--1.基础文章中我们就可以初步窥见一些PGM的内容。我也是十分艰难的在很多很多篇的博客中挣扎过来,才渐渐的觉得了解PGM是个什么东西以及一些相关概念。
顺便膜拜一下 ML领域的大佬吴恩达 的博导 Michael I. Jordan的slides,基本上我看的网上的所有博客的内容或多或少都来自于这个slides。
今天主要讲一下其中比较简单的一类,有向图,一般也叫作贝叶斯网络(Bayesian network)。
贝叶斯网络
从贝叶斯方法谈到贝叶斯网络
偷懒系列发现的讲得比较靠谱的贝叶斯网络的文章,但是其中关于条件独立的情况还是没说清楚。并且前后的逻辑不通顺,衔接不是很好。
关于条件独立的内容可以见下面funny thing里面的例子。
但基本的内容都有说到。
朴素贝叶斯分类器与贝叶斯网络
ML里面的朴素贝叶斯分类器其实也是一种贝叶斯网络,而且是一种十分理想的贝叶斯网络。
朴素贝叶斯分类器就是简单的假设各个变量/特征间相互独立,而label或者说class决定了它的特征。在训练的过程中,去建立这个网络中各个节点的概率表。然后是由于观测到的即下层X1,X2...去计算class归类的可能性。
所以等价来说
朴素贝叶斯分类器的训练-->以上图的模型为基础,计算概率表
朴素贝叶斯分类器的预测-->以完整的含概率表的上图,进行联合概率(joint probability)的计算。
计算的规则也按照PGM的inference的结果可以得到结果,即
其中很多地方都不会把每个特征的取值的等号给写出来,从而给初学者造成了许多的混淆,因为实际操作中,他们在概率表中是需要知道取哪一行与哪一列的值的。那么根据上面这个公式希望可以让大家清晰的明白一点。
注意连乘里面的前后关系。训练得到的应该是Class下的各特征取值的频率。
其它更为复杂的贝叶斯网络
我们围绕下图说明一些在贝叶斯网络中会遇到的很神奇的事情以及其原因,从而加深各位的理解。这些例子主要都是从该textbook中翻译所得。 下图有个地方下错了,我用红色的颜色改正过来了。
这个图的联合概率大家可以自己尝试写一下。
Funny thing
下图的概率的值大家可以自己计算一下。我这里也有一个程序可以给大家使用。(但我写的不是很user friendly...我自己用是可以的)
PGM
- 小明同学如果在不考虑其它情况下,在这个模型下的拿到推荐信的概率接近一半。
- 但如果考虑了他智商不高...则几率下降了
- 但又考虑课程的难度是比较简单的,则几率又上升到了接近一半。(大概意思是,如果课程简单,那即使他智商不高也是可以在这个课程上拿到好的grade,从而拿到教授的推荐信。)
这从主观上来看,是非常合理的,这也侧面证明了这个模型的完整性对结果的帮助很大。
这个时候如果你是一个招聘官。那你看的角度又不一样了。
- 成绩拿C的情况下,还高智商的几率非常低
- 拿不到推荐信的情况下,还高智商的几率也不高
- 两个因素加起来考虑时,几率还是已知成绩时的几率。(这从侧面说明了独立和非独立的关系,由于G和L是父子节点,如果已知父节点,则几率就已经决定)右边的等式说明在已知这两个因素的情况下,该门课比较难的几率是62.9%
其实就是说给定G的情况下,L和其它节点都条件独立。
- 如果换成比较高的SAT成绩,情况就完全不一样了。。。包括课程比较难的可能性更大。
插入的贝叶斯网络中条件独立的章节
从上面的例子中得到的启示
- 给定G的情况下,L和其它节点都条件独立。(只与父节点有关)
- 给定I的情况下,S与其它节点都条件独立。
但上述两个节点都是父子节点的关系。如果我们考虑的是G节点与谁在什么情况下条件独立呢?
实际操作后发现,如果我们认为只与父节点有关的话,那么上述的两个结果应该是相等的。
所以说我们的结论是不完备的。
应该说 对每一个节点,给定它父节点的情况下,与任何非子孙节点条件独立。
在这个图内的这些条件独立的集合,也做局部Markov独立
这么说来,其实我们就可以理解下面这段话(节选自 从贝叶斯方法谈到贝叶斯网络)
如果我们将刚刚的D,I合在一起考虑,则为a,接下来同理。则成为了这里的例子,由于我们恰恰想预测G的值,也就是在G未知的情况下,其父节点与其子节点之前是不独立的,所以不能够将对方约去仍保持一样的联合概率的值。