符号约定
- 大写字母:集合、随机变量
- 小写字母:集合中的元素、随机变量的可能取值
- 设随机事件
、
分别取自有限符号集合
,
,概率:
(或
、
、
),条件概率:
、
,联合概率:
、
、
)
传信率
单位时间内信道所传递的信息量
1. 自信息量和条件自信息量
1.1 信息量与不确定度
- 事件发生的概率越大,它发生后提供的信息量就越小
- 事件发生的概率越小,一旦该事件发生,它发生后提供的信息量就越大
- 事件
的信息量
应该是该事件概率的函数
- 函数
应满足的性质:
应该是
的单调递减函数
- 当
时,
![]()
- 当
时,
![]()
- 两个独立事件的联合信息量应该等于各自信息量之和
1.2 自信息量
定义:任何随机事件的自信息量定义为该事件发生概率的对数的负值。假设事件
发生的概率为
,则其自信息定义为
含义:自信息量衡量的是随机事件的不确定性。事件的不确定性越大,其自信息量也越大,反之亦然。
性质:
- 函数
是
的递减函数
- 当
时,
![]()
- 当
时,
![]()
- 两个独立事件的联合信息量等于各自信息量之和
![]()
- 单位及换算
单位 | |
---|---|
bit (比特) | |
nat (奈特) | |
hart (哈特) |
1 nat =
= 1.443 bit
1 hart == 3.32 bit
1.3 联合自信息量
定义:二维联合集
上的元素
的联合自信息量定义为
含义:联合自信息量衡量的是多个事件同时出现的不确定性
1.4 条件自信息量
定义:事件
在事件
给定的条件下的条件自信息定义为
含义:已知
之后仍然保留的关于
的不确定性
1.5 互信息量
定义:随机事件
的出现给出关于事件
的信息量,定义为
含义:本身的不确定性,减去知道事件
之后仍然保留的不确定性,即由
所提供的关于
的信息量或由
所消除的关于
的不确定性
性质:
证明:
即互信息量 = 原有不确定性 - 尚存在的不确定性
- 互易性:由
所提供的关于
的信息量 = 由
所提供的关于
的信息量,即
证明:
![]()
- 当事件
、
统计独立时,互信息量为 0;即两个事件相互独立时,一个事件不能提供另一个事件的任何信息 。
证明:![]()
- 互信息量可正可负。正表示
的出现有利于确定
的发生;负表示
的出现不利于确定
的发生 。
【注】无论正负,互信息量的绝对值越大,和
的关系越密切。
- 互信息量不大于任一事件的自信息量 。
证明:
![]()
- 单位:同自信息量
1.6 条件互信息量
定义:联合集
中,在给定
的条件下,
与
之间的互信息量定义为条件互信息量,定义式如下:
含义:知道了
后,
提供关于
的信息量
性质:
证明:
2. 离散集的平均自信息量
2.1 平均自信息量(熵)
概念:离散集
,离散集的概率分布表示为:
离散集中的每一个事件的自信息量分别为:,所有这些自信息量的均值即为离散集的平均自信息量。
定义:集合
上,随机变量
的数学期望定义为平均自信息量:
又称作集
的信息熵,简称熵,
又可记作
。
含义:
名称 | 说明 |
---|---|
自信息量 | 集合 |
熵 | 集合 |
- 单位:同自信息量(或 bit/符号)
2.2 条件熵
- 定义:条件自信息量
的概率均值定义为条件熵,定义式为:
【注】根据全概率公式可知:
含义:离散集
在已知离散集
后仍然保留的平均不确定性
公式
表示
确定时,集合
保留的平均不确定性。故
若
表示输入,
表示输出,则
表示信道损失
2.3 联合熵
定义:联合集
上,每对元素
的自信息量的概率平均值定义为联合熵,定义式如下:
联合熵又称为共熵 。
推广:设
为一组随机变量,其中
取值于
,
的联合熵定义为:
2.4 熵函数的数学特性
- 对称性:集合中各分量的次序任意变更时,熵值不变,即
深层含义:熵是有局限性的。它仅与随机变量的总体结构有关,抹杀了个体的特性。
证明:
- 非负性:
证明:源自自信息量的非负性当有且仅有一个
,其余的
时,
,即确定事件集。
- 扩展性:
含义:集合有
个事件,集合
比
仅仅是多了一个概率接近 0 的事件,则两个集合的熵值一样
证明:在
上的连续性,
意义:集合中,若一个事件发生的概率比其它事件发生的概率小得多时,则这个事件对于集合的熵值的贡献可以忽略
- 可加性:设
和
为两个互相关联的随机变量,
的概率分布为
,
的概率分布为
,则
证明:
当
、
相互独立时,
证明:
推广
- 熵的可加性可推广到多个随机变量的情况:
![]()
- 当这些随机变量统计独立时:
![]()
- 极值性:
最大熵定理:各事件等概率发生时,熵最大。
证明:,而
函数在区间
上为严格上凸函数(证明见下文上凸性),故由琴生不等式(参见凸函数及其性质)可知:
等号成立当且仅当
【注】凸函数定义及相关性质参见凸函数及其性质。
确定性:集合中只要有一个事件为必然事件,则其余事件为不可能事件,此时熵为 0 。
上凸性:
是概率分布
上的严格上凸函数。
证明:设和
分别为两个概率分布,
且
,则需证明
。
由于函数
在区间
是严格上凸函数,证明如下:
对于,任取
且
,不妨假设
,要证
![]()
- 若
,则上式等价于
![]()
![]()
易知对于
恒成立。
- 若
,则上式等价于
![]()
![]()
令
,则
,上式等价于
令
,
,则
易知
在
上递减,故
故
在
上递减,因此
即
![]()
综上,函数
在区间
上是严格上凸函数。
因为 ,
,
,
由函数
的严格上凸性和凸函数及其性质可知:
所有等号成立当且仅当
即
。
因为 ,故
即
故命题得证。
2.5 各种熵之间的关系
,等式成立当且仅当
和
相互独立。
证明:
2.6 加权熵
- 定义:
其中,,则加权熵定义式为:
3. 离散集的平均互信息量
3.1 平均互信息量
定义:
性质:
- 非负性:
证明:(由 2.5 可知)
- 互易性(对称性):从集合
中获得的关于
的信息量等于从集合
中获得的关于
的信息量。
证明:![]()
- 平均互信息与各类熵的关系:根据定义和 2.5 易得
- 当
决定
时,即
,有
;当
决定
时,即
,有
![]()
- 当
与
相互独立时,
,即
![]()
- 极值性:
证明:因为
,而
- 凸函数性:平均互信息量是先验概率
的上凸函数,是前向转移概率
的下凸函数
- 当信道固定时, 选择不同的信源( 其概率分布不同) ,在信道输出端接收到每个符号获得的平均信息量是不同的;当信源固定时,选择不同的信道(其转移概率分布不同)来传输同一信源符号时,在信道输出端接收到每个符号获得的平均信息量是不同的。
- 对于一个固定的信源,一定存在着一种信源,使得输出端获得的平均信息量最大;对于一个固定的信源,一定存在着一种最差的信道,使得输出端获得的平均信息量最小。