信息统计量

符号约定

  1. 大写字母:集合、随机变量
  2. 小写字母:集合中的元素、随机变量的可能取值
  3. 设随机事件 XY 分别取自有限符号集合 A = \{ x_1, x_2, \cdots, x_n \}B = \{ y_1,y_2, \cdots, y_n \},概率:P(X = x_i)(或 P(x_i)p(x_i)p_i),条件概率:P(X = x_i | Y = y_j)P(x_i | y_j),联合概率:P(X = x_i, Y = y_j)P(x_i,y_j)P(x_iy_j)

传信率

单位时间内信道所传递的信息量

1. 自信息量和条件自信息量

1.1 信息量与不确定度

  • 事件发生的概率越大,它发生后提供的信息量就越小
  • 事件发生的概率越小,一旦该事件发生,它发生后提供的信息量就越大
  • 事件 x_i 的信息量 I(x_i) 应该是该事件概率的函数 I(x_i) = f[P(x_i)]
  • 函数 I(x_i) 应满足的性质:
  1. f[P(x_i)] 应该是 P(x_i) 的单调递减函数
  2. P(x_i) = 1 时,f[P(x_i)] = 0
  3. P(x_i) = 0 时,f[P(x_i)] = \infty
  4. 两个独立事件的联合信息量应该等于各自信息量之和

1.2 自信息量

  • 定义:任何随机事件的自信息量定义为该事件发生概率的对数的负值。假设事件 x_i 发生的概率为 p(x_i),则其自信息定义为 I(x_i) = -log_{_2} p(x_i)

  • 含义:自信息量衡量的是随机事件的不确定性。事件的不确定性越大,其自信息量也越大,反之亦然。

  • 性质:

  1. 函数 I(x_i)P(x_i) 的递减函数
  2. P(x_i) = 1 时,I(x_i) = 0
  3. P(x_i) = 0 时,I(x_i) = \infty
  4. 两个独立事件的联合信息量等于各自信息量之和 I(x_1x_2) = -log_{_2}P(x_1x_2) = -log_{_2}P(x_1)P(x_2) = I(x_1) + I(x_2)
  • 单位及换算
单位
I(x_i) = -log_{_2}P(x_i) bit (比特)
I(x_i) = -lnP(x_i) nat (奈特)
I(x_i) = -lgP(x_i) hart (哈特)

1 nat = log_{_2}e = 1.443 bit
1 hart = log_{_2}10 = 3.32 bit

1.3 联合自信息量

  • 定义:二维联合集 XY 上的元素 (x_iy_j) 的联合自信息量定义为 I(x_iy_j) = -log_{_2}P(x_iy_j)

  • 含义:联合自信息量衡量的是多个事件同时出现的不确定性

1.4 条件自信息量

  • 定义:事件 x 在事件 y 给定的条件下的条件自信息定义为 I(x|y) = -log_{_2}P(x|y)

  • 含义:已知 y 之后仍然保留的关于 x 的不确定性

1.5 互信息量

  • 定义:随机事件 y 的出现给出关于事件 x 的信息量,定义为 I(x;y) = log_{_2}{P(x|y) \over P(x)}

  • 含义:本身的不确定性,减去知道事件 y 之后仍然保留的不确定性,即由 y 所提供的关于 x 的信息量或由 y 所消除的关于 x 的不确定性

  • 性质:

I(x;y) = I(x) - I(x|y)
证明I(x;y) = log_{_2}{P(x|y) \over P(x)} = log_{_2}{1 \over P(x)} - log_{_2}{1 \over P(x|y)} = I(x) - I(x|y)
互信息量 = 原有不确定性 - 尚存在的不确定性

  1. 互易性:由 y 所提供的关于 x 的信息量 = 由 x 所提供的关于 y 的信息量,即 I(x;y) = I(y;x) 证明I(x;y) = log_{_2}{P(x|y) \over P(x)} = log_{_2}{P(x|y)P(y) \over P(x)P(y)} = log_{_2}{P(xy) \over P(x)P(y)} = log_{_2}{P(y|x) \over P(y)} = I(y;x)
  2. 当事件 xy 统计独立时,互信息量为 0;即两个事件相互独立时,一个事件不能提供另一个事件的任何信息 。
    证明I(x;y) = log_{_2}{P(x|y) \over P(x)} = log_{_2}{P(x) \over P(x)} = 0
  3. 互信息量可正可负。正表示 y 的出现有利于确定 x 的发生;负表示 y 的出现不利于确定 x 的发生 。
    【注】无论正负,互信息量的绝对值越大,xy 的关系越密切。
  4. 互信息量不大于任一事件的自信息量 。
    证明I(x;y) = I(y;x)
          I(x;y) = log_{_2}{P(x|y) \over P(x)}\le log_{_2}{1 \over P(x)} = I(x)
          I(y;x) = log_{_2}{P(y|x) \over P(y)}\le log_{_2}{1 \over P(y)} = I(y)
  • 单位:同自信息量

1.6 条件互信息量

  • 定义:联合集 XYZ 中,在给定 z 的条件下,xy 之间的互信息量定义为条件互信息量,定义式如下: I(x;y|z) = log_{_2}{P(x|yz) \over P(x|z)}

  • 含义:知道了 z 后,y 提供关于 x 的信息量

  • 性质:

I(x;y|z) = I(x;yz) - I(x;z)
证明I(x;y|z) = log_{_2}{P(x|yz) \over P(x|z)} = log_{_2}{P(x|yz)P(x) \over P(x|z)P(x)} = log_{_2}{P(x|yz) \over P(x)} - log_{_2}{P(x|z) \over P(x)} = I(x;yz) - I(x;z)

2. 离散集的平均自信息量

2.1 平均自信息量(熵)

  • 概念:离散集 X = {x_1,x_2,\cdots,x_q},离散集的概率分布表示为:
    \left[ \begin{matrix} X \\ Y \end{matrix} \right] = \left[ \begin{matrix} x_1 & x_2 & \cdots & x_q \\ P(x_1) & P(x_2) & \cdots & P(x_q) \end{matrix} \right]
    离散集中的每一个事件的自信息量分别为:I(x_1) \,\, I(x_2) \cdots I(x_q),所有这些自信息量的均值即为离散集的平均自信息量。

  • 定义:集合 X 上,随机变量 I(x_i) 的数学期望定义为平均自信息量:H(X) = E(I(x_i)) = E[-log_{_2}P(x_i)] = -\sum_{i=1}^q P(x_i)log_{_2}P(x_i) 又称作集 X 的信息熵,简称熵,H(X) 又可记作 H(p_1,p_2,\cdots,p_q)

  • 含义:

名称 说明
自信息量 集合 X 中某一个元素 x_i 的信息量,表示元素 x_i 的不确定性
集合 X 中所有元素自信息量的平均值,表示集合 X 的平均不确定性
  • 单位:同自信息量(或 bit/符号)

2.2 条件熵

  • 定义:条件自信息量 I(x|y) 的概率均值定义为条件熵,定义式为:H(X|Y) = \sum_{XY}P(xy)I(x|y) = -\sum_{XY}P(xy)log_{_2}P(x|y)

【注】根据全概率公式可知:\sum_{XY}P(xy) = \sum_X \sum_Y P(xy) = \sum_X \sum_Y P(x|y)P(y) = \sum_X P(x) = 1

  • 含义:离散集 X 在已知离散集 Y 后仍然保留的平均不确定性

  • 公式 H(X|y_j) = -\sum_X P(x_i|y_j)log_{_2}P(x_i|y_j) 表示 y_j 确定时,集合 X 保留的平均不确定性。故 H(X|Y) = \sum_Y P(y_j)H(X|y_j) = -\sum_{XY}P(y_j)P(x_i|y_j)log_{_2}P(x_i|y_j) = -\sum_{XY}P(x_iy_j)log_{_2}P(x_i|y_j)

  • X 表示输入,Y 表示输出,则 H(X|Y) 表示信道损失

2.3 联合熵

  • 定义:联合集 XY 上,每对元素 xy 的自信息量的概率平均值定义为联合熵,定义式如下:
    H(X,Y) = \sum_{XY}P(xy)I(xy) = -\sum_{XY}P(xy)log_{_2}P(xy) 联合熵又称为共熵 。

  • 推广:设 X_1,X_2,\cdots,X_k 为一组随机变量,其中 X_i 取值于 S_iX_1,X_2,\cdots,X_k 的联合熵定义为:H(X_1,X_2,\cdots,X_k) = -\sum_{x_1 \in S_1, x_2 \in S_2, \cdots, x_k \in S_k} P(x_1,x_2,\cdots,x_k)log_{_2}P(x_1,x_2,\cdots,x_k)

2.4 熵函数的数学特性

  • 对称性:集合中各分量的次序任意变更时,熵值不变,即 H(p_1,p_2) = H(p_2,p_1) H(p_1,p_2,\cdots,p_n) = H(p_2,p_1,\cdots,p_n) = H(p_n,p_1,\cdots,p_{n-1}) 深层含义:熵是有局限性的。它仅与随机变量的总体结构有关,抹杀了个体的特性。
    证明H(X) = -\sum_{i=1}^n P(x_i)log_{_2}P(x_i)

  • 非负性:H(X) \ge 0
    证明:源自自信息量的非负性 H(X) = E(I(x_i)) = \sum_{i=1}^n P(x_i)log_{_2}{1 \over P(x_i)} 当有且仅有一个 P(x_i) = 1,其余的 P(x_i) = 0 时,H(X) = 0,即确定事件集。

  • 扩展性:\displaystyle \lim_{\varepsilon \rightarrow 0} H_{q+1}(p_1,p_2,\cdots,p_q - \varepsilon, \varepsilon) = H_q(p_1,p_2,\cdots,p_q)
    含义:集合 Xq 个事件,集合 YX 仅仅是多了一个概率接近 0 的事件,则两个集合的熵值一样
    证明xlog_{_2}x[ 0, \infty) 上的连续性,\displaystyle \lim_{x \rightarrow 0} x log_{_2}x = 0
    意义:集合中,若一个事件发生的概率比其它事件发生的概率小得多时,则这个事件对于集合的熵值的贡献可以忽略

  • 可加性:设 XY 为两个互相关联的随机变量,X 的概率分布为 \{ p_1,p_2,\cdots,p_m\}Y 的概率分布为 \{q_1,q_2,\cdots,q_n\},则 H(XY) = H(X) + H(Y|X) = H(Y) + H(X|Y)
    证明H(XY) = - \displaystyle\sum_{XY}P(xy)log_{_2}P(xy)
            = - \displaystyle \sum_{XY}P(xy)log_{_2}P(y|x)P(x) = -\sum_{X}P(x)log_{_2}P(x) - \sum_{XY}P(xy)log_{_2}P(y|x)
            = H(X) + H(X|Y)
            = - \displaystyle \sum_{XY}P(xy)log_{_2}P(x|y)P(y) = -\sum_{Y}P(y)log_{_2}P(y) - \sum_{XY}P(xy)log_{_2}P(x|y)
            = H(Y) + H(Y|X)

XY 相互独立时,H(XY) = H(X) + H(Y)
证明H(XY) = - \displaystyle \sum_{XY}P(xy)log_{_2}P(xy) = - \sum_{XY}P(x)P(y)log_{_2}P(x)P(y)
        = - \displaystyle \sum_{XY}P(x)P(y)log_{_2}P(x) - \sum_{XY}P(x)P(y)log_{_2}P(y)
        = - \displaystyle \sum_{X}P(x)log_{_2}P(x) - \sum_{Y}P(y)log_{_2}P(y)
        = H(X) + H(Y)

推广

  1. 熵的可加性可推广到多个随机变量的情况:H(X_1 X_2 \cdots X_N) = H(X_1) + H(X_2 | X_1) + H(X_3|X_1 X_2) + \cdots + H(X_N | X_1 X_2 \cdots X_{N-1})
  2. 当这些随机变量统计独立时:H(X_1 X_2 \cdots X_N) = H(X_1) + H(X_2) + \cdots + H(X_N)


  • 极值性:H(X) = H(p_1,p_2,\cdots,p_n) \le H({1 \over n},{1 \over n},\cdots,{1 \over n}) = log_{_2}n
    最大熵定理:各事件等概率发生时,熵最大。
    证明H(X) = -\displaystyle \sum_{i=1}^n P(x_i)log_{_2}P(x_i),而 -xlog_{_2}x 函数在区间 [0,1] 上为严格上凸函数(证明见下文上凸性),故由琴生不等式(参见凸函数及其性质)可知:H(X) = E[I(x_i)] = E[f[P(x_i)]] \le f[E[P(x_i)]] = -log_{_2}{1 \over n} = log_{_2}n 等号成立当且仅当 P(x_1) = P(x_2) = \cdots = P(x_n) = {1 \over n}

【注】凸函数定义及相关性质参见凸函数及其性质

  • 确定性:集合中只要有一个事件为必然事件,则其余事件为不可能事件,此时熵为 0 。
    H(1,0) = H(1,0,0) = \cdots = H(1,0,\cdots,0) = 0

  • 上凸性:H(p_1,p_2,\cdots,p_q) 是概率分布 (p_1,p_2,\cdots,p_q) 上的严格上凸函数。
    证明:设 PP^{'} 分别为两个概率分布,P \ne P^{'}0 \lt \alpha \lt 1,则需证明 H[\alpha P + ( 1-\alpha )P^{'}] \gt \alpha H(P) + ( 1 - \alpha )H(P^{'})

由于函数 f(x) = -xlog_{_2}x 在区间 [0,1] 是严格上凸函数,证明如下:
对于 0 \lt \alpha \lt 1,任取 0 \le x_1, x_2 \le 1x_1 \ne x_2,不妨假设 0 \le x_1 < x_2 \le 1,要证 f[\alpha x_1 + (1-\alpha )x_2] - \alpha f(x_1) - (1 - \alpha )f(x_2) = -(\alpha x_1 + (1-\alpha )x_2)log_{_2}(\alpha x_1 + (1-\alpha )x_2) + \alpha x_1 log_{_2}x_1 + (1-\alpha )x_2 log_{_2}x_2 \gt 0

  1. x_1 = 0,则上式等价于 -(1-\alpha )x_2 log_{_2}((1-\alpha )x_2) + (1-\alpha )x_2 log_{_2}x_2 \gt 0 \Updownarrow (1-\alpha )x_2 log_{_2}{1 \over (1-\alpha )} \gt 0 易知对于 0 \lt \alpha \lt 1 恒成立。
  2. x_1 \ne 0,则上式等价于 -\alpha x_1 log_{_2}(\alpha + (1-\alpha ){x_2 \over x_1}) - (1-\alpha )x_2 log_{_2}(\alpha {x_1 \over x_2} + (1-\alpha )) > 0 \Updownarrow \alpha log_{_2}(\alpha + (1-\alpha ){x_2 \over x_1}) + (1-\alpha ){x_2 \over x_1}log_{_2}(\alpha {x_1 \over x_2} + (1 - \alpha )) \lt 0t = {x_2 \over x_1},则 t \gt 1,上式等价于 \alpha log_{_2}(\alpha + (1-\alpha )t) + (1 - \alpha )t log_{_2}(\alpha {1 \over t} + (1 - \alpha )) \lt 0h(t) = \alpha log_{_2}(\alpha + (1-\alpha )t) + (1 - \alpha )t log_{_2}(\alpha {1 \over t} + (1 - \alpha ))t \gt 1,则 h^{'}(t) = (1 - \alpha )log_{_2}(\alpha {1 \over t} + (1 - \alpha )) 易知 h^{'}(t)t > 1 上递减,故 h^{'}(t) \lt h^{'}(1) = 0h(t)t \gt 1 上递减,因此 h(t) \lt h(1) = 0 + 0 = 0\alpha log_{_2}(\alpha + (1-\alpha )t) + (1 - \alpha )t log_{_2}(\alpha {1 \over t} + (1 - \alpha )) \lt 0

综上,函数 f(x) = -xlog_{_2}x在区间 [0,1] 上是严格上凸函数。

    因为 0 \lt \alpha \lt 1\displaystyle \sum_{i=1}^n P(x_i) = 1\displaystyle \sum_{i=1}^n P^{'}(x_i) = 1H(P) = -\sum_{i=1}^n P(x_i)log_{_2}P(x_i) H(P^{'}) = -\sum_{i=1}^n P^{'}(x_i) log_{_2} P^{'}(x_i) H(\alpha P + (1-\alpha )P^{'}) = -\sum_{i=1}^n (\alpha P(x_i) + (1-\alpha )P^{'}(x_i))log_{_2}(\alpha P(x_i) + (1-\alpha )P^{'}(x_i))     由函数 f(x) = -xlog_{_2}x 的严格上凸性和凸函数及其性质可知:\forall i \in \{ 1,2,\cdots, n\} -(\alpha P(x_i) + (1-\alpha )P^{'}(x_i)log_{_2}((\alpha P(x_i) + (1-\alpha )P^{'}(x_i)) \ge -\alpha P(x_i)log_{_2}P(x_i) - (1-\alpha )P^{'}(x_i)log_{_2}P^{'}(x_i)     所有等号成立当且仅当 \forall i \in \{1,2,\cdots,n\} \,\,\,\, P(x_i) = P^{'}(x_i)     即 P = P^{'}
    因为 P \ne P^{'},故 -\sum_{i=1}^n (\alpha P(x_i) + (1-\alpha )P^{'}(x_i)log_{_2}((\alpha P(x_i) + (1-\alpha )P^{'}(x_i)) \gt -\sum_{i=1}^n(\alpha P(x_i)log_{_2}P(x_i) + (1-\alpha )P^{'}(x_i)log_{_2}P^{'}(x_i))     即 H[\alpha P + (1 - \alpha )P^{'}] \gt \alpha H(P) + (1-\alpha )H(P^{'})     故命题得证。

2.5 各种熵之间的关系

  • H(X,Y) = H(X) + H(Y|X) = H(Y) + H(X|Y)

  • H(Y|X) \le H(Y),等式成立当且仅当 XY 相互独立。
    证明\displaystyle H(Y|X) = -\sum_{XY}P(xy)log_{_2}P(x|y) = -\sum_{XY}P(xy)log_{_2}{P(xy)P(x) \over P(y)P(x)}
                \displaystyle = H(X) -\sum_{XY}P(xy)log_{_2}{P(xy) \over P(x) P(y)} = H(X) + \sum_{XY}P(xy)log_{_2}{P(x)P(y) \over P(xy)}

  • H(X,Y) \le H(X) + H(Y)

2.6 加权熵

  • 定义:
    \left[ \begin{matrix} X \\ P \\ W \end{matrix} \right] = \left[ \begin{matrix} x_1 & x_2 & \cdots & x_n \\ P(x_1) & P(x_2) & \cdots & P(x_n) \\ w_1 & w_2 & \cdots & w_n \end{matrix} \right]
    其中,w_i \ge 0,则加权熵定义式为:H_w(X) = -\sum_{i=1}^n w_i P(x_i) log_{_2} P(x_i)

3. 离散集的平均互信息量

3.1 平均互信息量

  • 定义:
    I(X;Y) = \sum_{i,j}P(x_iy_j)I(x_i;y_j) = \sum_{i,j}P(y_j)P(x_i | y_j)log_{_2}{P(x_i | y_j) \over P(x_i)}
    = \sum_{i,j} P(x_i y_j) log_{_2}P(x_i | y_j) - \sum_{i,j} P(x_i y_j) log_{_2}P(x_i) = H(X) - H(X|Y)

  • 性质:

  1. 非负性:
    I(X;Y) \ge 0
    证明I(X;Y) = H(X) - H(X|Y) \ge 0(由 2.5 可知)
  2. 互易性(对称性):从集合 Y 中获得的关于 X 的信息量等于从集合 X 中获得的关于 Y 的信息量。
    I(X;Y) = I(Y;X)
    证明\displaystyle I(X;Y) = \sum_{i,j}P(x_i y_j)I(x_i;y_j) = \sum_{j,i}P(y_j x_i)I(y_j;x_i) =I(Y;X)
  3. 平均互信息与各类熵的关系:根据定义和 2.5 易得
  • I(X;Y) = H(X) - H(X|Y) = H(Y) - H(Y|X) = H(X) + H(Y) - H(X,Y)
  • Y 决定 X 时,即 H(X|Y) = 0,有 I(X;Y) = H(X);当 X 决定 Y 时,即 H(Y|X) = 0,有 I(X;Y) = H(Y)
  • XY 相互独立时,H(X|Y) = H(X),即 I(X;Y) = 0
  1. 极值性:
  • I(X;Y)\le H(X)
  • I(X;Y)\le H(Y)

证明:因为 I(X;Y) = H(X) - H(X|Y),而 H(X|Y) \ge 0

  1. 凸函数性:平均互信息量是先验概率 P(x) 的上凸函数,是前向转移概率 P(y|x) 的下凸函数
  • 当信道固定时, 选择不同的信源( 其概率分布不同) ,在信道输出端接收到每个符号获得的平均信息量是不同的;当信源固定时,选择不同的信道(其转移概率分布不同)来传输同一信源符号时,在信道输出端接收到每个符号获得的平均信息量是不同的。
  • 对于一个固定的信源,一定存在着一种信源,使得输出端获得的平均信息量最大;对于一个固定的信源,一定存在着一种最差的信道,使得输出端获得的平均信息量最小。

3.2 平均互信息量与各类熵关系

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。