大师兄的贝叶斯网络学习笔记(四):贝叶斯网络基础(四)
大师兄的贝叶斯网络学习笔记(六):贝叶斯网络(一)
五、信息论基础
- 信息论是建筑于概率论之上的研究信息传输和信息处理的数学理论。
- 它不仅是信息技术的基础,还在诸如统计力学、机器学习等其它领域中起着重要作用。
1. Jensen不等式
- 一个函数f在实数轴的某个区间I上被称为凹函数,如果
,有
- 若式中的等号只在
时才成立,则成f在区间I上严格凹。
- 如果f是凹函数,则-f时凸函数。
-
Jsensen不等式:设f为区间I上的凹函数,
。
- 若f严格凹,则上式的等号只有在下下列条件满足时才成立:
。
- Jensen不等式是凹函数的基本性质,在信息论中经常用到。
2. 熵
- 一个离散随机变量X的熵
定义为:
。
- 上式的对数若以2为底,则熵的单位是比特。
- 若以e为底,则单位是奈特。
- 熵是对随机变量的不确定性的度量,随机变量X的熵越大,说明它的不确定性越大。
- 用
来记变量X的取值个数,又称为变量的势。
3. 联合熵、条件熵和互信息
- 联合熵是借助联合概率分布对熵的自然推广。
- 两个离散随机变量X和Y的联合熵的定义为:
- 条件熵是利用条件概率分布对熵的一个延伸。
- 随机变量X的熵是用它的概率分布
来定义的。
- 如果知道另一个随机变量Y的取值为y,那么X的后验分布即为
。
- 利用此条件分布可以定义给定Y=y时X的条件熵为
- 熵
度量的是随机变量X的不确定性,条件熵
度量的则是已知Y=y后,X的不确定性。
- 式中当y变化后,
也会发生改变,由于知道Y的概率分布,因此可以计算观测Y后X的熵的期望值,即
-
成为给定Y时X的条件熵。
-
与
有所不同:
- 后者是在已知Y取某一特定值y时X的条件熵,或者说是在已知Y=y后,X剩余的不确定性。
- 而
则是在位置Y的取值时,对观测到Y的去之后X剩余的不确定性的一个期望。
可能会比
大,即知道Y的具体取值Y=y可能增大对X的不确定性。
永远不大于
,即平均来说,知道Y将不会增加X的不确定性。
- 设联合分布
以及边缘分布
如下:
| - | $x_1 | x_2$ | |
|---|---|---|---|
- 可以得出:
- 可以看出
的熵减小,而
使
的熵增大,但平均来说,对
的观测使
的熵减小。
- 再观测到
以前,
的不确定性是
。
- 通过观测
,期望X的不确定性会变为
。
- 因此
之差
就是对Y包含多少关于X的信息的一个度量,称之为Y关于X的信息,也成为X和Y之间的互信息。
- 对任意两个离散随机变量X和Y有:
-
联合熵、条件熵和互信息之间的关系可用韦恩图来总结:
4. 相对熵
- 对定义于随机变量X的状态空间
上的两个概率分布
和
,可以用相对熵来度量它们之间的差异,既有
- 其中约定:
![]()
又被称为
之间的Kullback-Leibler距离,但严格意义上并不是真正的距离,因为
。
- 信息不等式:设
为定义在某个变量X状态空间
上的两个概率分布,则有
- 其中,当且仅当P与Q相同,即
时等号成立。
5. 互信息与变量独立
- 互信息与变量独立之间的两个关系,首先由以下定理:
- 对任意两个离散随机变量X和Y,有:
- 上面两式当且晋档X与Y相互独立时等号成立。
- 对任意3个离散随机变量
,有:
- 上面两式当且仅当
时等号成立。
- 上面公式的意义在于,从信息论的角度为随机变量之间的条件独立概念提供了直观解释,即给定Z,两个随机变量X和Y相互条件独立,当且仅当他们的条件互信息为零。
- 或者说,Y关于X的信息已全部包括在Z中,从而观测到Z之后,再对Y进行的观测不会带来关于X的更多信息。
- 另一方面,如果X和Y在给定Z时相互不独立,则
,即在已知Z的基础上对Y的进一步观测将会带来关于X的信息,从而降低X的不确定性。

