大师兄的贝叶斯网络学习笔记(五):贝叶斯网络基础(五)

大师兄的贝叶斯网络学习笔记(四):贝叶斯网络基础(四)
大师兄的贝叶斯网络学习笔记(六):贝叶斯网络(一)

五、信息论基础

  • 信息论是建筑于概率论之上的研究信息传输和信息处理的数学理论。
  • 它不仅是信息技术的基础,还在诸如统计力学、机器学习等其它领域中起着重要作用。
1. Jensen不等式
  • 一个函数f在实数轴的某个区间I上被称为凹函数,如果\forall x_1,x_2\in I,有f(\lambda x_1+(1-\lambda)x_2) \geq \lambda f(x_1)+(1-\lambda)f(x_2),\forall \lambda \in[0,1]
  • 若式中的等号只在x_1=x_2时才成立,则成f在区间I上严格凹。
  • 如果f是凹函数,则-f时凸函数。
  • Jsensen不等式:设f为区间I上的凹函数,p_i \in [0,1],i=1,2,...,n,且\sum^n_{i=1}p_i=1,则对任何x_i\in I有f(\sum^n_{i=1}p_ix_i)\geq \sum^n_{i=1}p_if(x_i)
  • 若f严格凹,则上式的等号只有在下下列条件满足时才成立:p_i . p_j \neq 0,则必有x_i=x_j
  • Jensen不等式是凹函数的基本性质,在信息论中经常用到。
2. 熵
  • 一个离散随机变量X的熵H(X)定义为:H(X)=\sum_XP(X)log\frac{1}{P(X)}=-\sum_XP(X)logP(X), 0log\frac{1}{0}=0
  • 上式的对数若以2为底,则熵的单位是比特。
  • 若以e为底,则单位是奈特。
  • 熵是对随机变量的不确定性的度量,随机变量X的熵越大,说明它的不确定性越大。
  • |X|来记变量X的取值个数,又称为变量的势。
3. 联合熵、条件熵和互信息
  • 联合熵是借助联合概率分布对熵的自然推广。
  • 两个离散随机变量X和Y的联合熵的定义为:H(X,Y)=\sum_{X,Y}P(X,Y)log\frac{1}{P(X,Y)}=-\sum_{X,Y}P(X,Y)logP(X,Y)
  • 条件熵是利用条件概率分布对熵的一个延伸。
  • 随机变量X的熵是用它的概率分布P(X)来定义的。
  • 如果知道另一个随机变量Y的取值为y,那么X的后验分布即为P(X|Y=y)
  • 利用此条件分布可以定义给定Y=y时X的条件熵为H(X|Y=y)=\sum_XP(X|Y=y)log\frac{1}{P(X|Y=y)}
  • H(X)度量的是随机变量X的不确定性,条件熵H(X|Y=y)度量的则是已知Y=y后,X的不确定性。
  • 式中当y变化后,H(X|Y=y)也会发生改变,由于知道Y的概率分布,因此可以计算观测Y后X的熵的期望值,即H(X|Y) = \sum_{X,Y}P(X,Y)log\frac{1}{P(X|Y)}
  • H(X|Y)成为给定Y时X的条件熵。
  • H(X|Y)H(X|Y=y)有所不同:
  • 后者是在已知Y取某一特定值y时X的条件熵,或者说是在已知Y=y后,X剩余的不确定性。
  • H(X|Y)则是在位置Y的取值时,对观测到Y的去之后X剩余的不确定性的一个期望。
  • H(X|Y=y)可能会比H(X)大,即知道Y的具体取值Y=y可能增大对X的不确定性。
  • H(X|Y)永远不大于H(X),即平均来说,知道Y将不会增加X的不确定性。
  • 设联合分布P(X,Y)以及边缘分布P(X)和P(Y)如下:
- $x_1 x_2$ P(Y)
y_1 0 \frac{3}{4} \frac{3}{4}
y_2 \frac{1}{8} \frac{1}{8} \frac{1}{4}
P(X) \frac{1}{8} \frac{7}{8}
  • 可以得出:
  • H(X) = -\frac{1}{8}\log\frac{1}{8}-\frac{7}{8}\log\frac{7}{8}=0.544
  • H(X|Y=y_1)=-0\log0-1\log1=0
  • H(X|Y=y_2)=-\frac{1}{2}\log\frac{1}{2}-\frac{1}{2}\log\frac{1}{2}=1
  • H(X|Y)=\frac{3}{4}H(X|Y=y_1)+\frac{1}{4}H(X|Y=y_2)=0.25
  • 可以看出Y=y_1使X的熵减小,而Y=y_2使X的熵增大,但平均来说,对Y的观测使X的熵减小。
  • 再观测到Y以前,X的不确定性是H(X)
  • 通过观测Y,期望X的不确定性会变为H(X|Y)
  • 因此H(X)与H(X|Y)之差I(X;Y)=H(X)-H(X|Y)就是对Y包含多少关于X的信息的一个度量,称之为Y关于X的信息,也成为X和Y之间的互信息。
  • 对任意两个离散随机变量X和Y有:
  • I(X;Y)=\sum_{X,Y}P(X,Y)log\frac{P(X,Y)}{P(X)P(Y)}
  • I(X;Y)=I(Y;X)
  • H(X,Y)=H(X)+H(Y|X)=H(Y)+H(X|Y)
  • I(X;Y)+H(X,Y)=H(X)+H(Y)
  • 联合熵、条件熵和互信息之间的关系可用韦恩图来总结:


4. 相对熵
  • 对定义于随机变量X的状态空间\Omega_X上的两个概率分布P(X)Q(X),可以用相对熵来度量它们之间的差异,既有KL(P,Q)=\sum_XP(X)log\frac{P(X)}{Q(X)}
  • 其中约定:0\log\frac{0}{q};p\log\frac{p}{0}=\infty,\forall>0
  • KL(P,Q)又被称为P(X)Q(X)之间的Kullback-Leibler距离,但严格意义上并不是真正的距离,因为KL(P,Q)\neq KL(Q,P)
  • 信息不等式:设P(X)和Q(X)为定义在某个变量X状态空间\OMEGA_X上的两个概率分布,则有KL(P,Q)\geq 0
  • 其中,当且仅当P与Q相同,即P(X=x)=Q(X=x),\forall x\in\Omega_X时等号成立。
5. 互信息与变量独立
  • 互信息与变量独立之间的两个关系,首先由以下定理:
  • 对任意两个离散随机变量X和Y,有:
  • I(X;Y)\geq0
  • H(X|Y)\leq H(X)
  • 上面两式当且晋档X与Y相互独立时等号成立。
  • 对任意3个离散随机变量X,Y和Z,有:
  • I(X;Y|Z)\geq 0
  • H(X|Y,Z)\leq H(X|Z)
  • 上面两式当且仅当X\perp Y|Z时等号成立。
  • 上面公式的意义在于,从信息论的角度为随机变量之间的条件独立概念提供了直观解释,即给定Z,两个随机变量X和Y相互条件独立,当且仅当他们的条件互信息为零。
  • 或者说,Y关于X的信息已全部包括在Z中,从而观测到Z之后,再对Y进行的观测不会带来关于X的更多信息。
  • 另一方面,如果X和Y在给定Z时相互不独立,则H(X|Z,Y)<H(X|Z),即在已知Z的基础上对Y的进一步观测将会带来关于X的信息,从而降低X的不确定性。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

友情链接更多精彩内容