1. 熵的由来
熵最早出现于热力学中,是衡量分子混乱程度的物理量。它表明宇宙中一切事物的总趋势都朝着混乱无序的状态发展,且是不可逆的。
2. 信息熵
1948年信息论之父香农将熵引入到了信息论之中,信息从此能被量化,信息熵正式登场。
信息熵既是对不确定性的度量,也是对信息量的度量。
试想,事物的不确定性很大,我们对它了解很少甚至一无所知,那么当我们从“一无所知”变为“胸有成竹”时,我们一定得到了有关它的大量信息,即不确定性 (越大) ,则传递信息量(越大)。当然也可认为不确定性,事物本身信息量。为方便记忆,一般我们取前者。
2.1 为什么信息熵公式长这样?
定义信息熵符号为 (entropy),随机变量为,则
假定我们不知道信息熵的公式,想从信息熵的性质出发来推断到底是个什么样的函数形式。但在此之前,我们不妨先忘掉信息熵,只关注信息量(又称为自信息,)。本文用表示随机事件发生时传递的信息量。
由前文可知,信息量与不确定性的关系应为单调递增或单调递减(人为定义),所以应该能由随机变量的概率分布表示,这里的为中的某个随机事件,或者说取值。
我们想从信息量的性质出发得到一个度量信息量的公式,那么它应该具有如下性质:
- 有两个独立随机事件,则同时发生所包含的信息量应该等于单独发生时所包含的信息量之和。
- 不确定性越大,信息量越大。 (人为定义)
- 信息量大于0。 (人为定义)
由性质1可得:
又因为
所以
看到这里,我们应该能想到中包含对数形式,不妨设
其中是未知函数。性质中不知底数大小,但可知单调递增,因此假设为2。为求简洁,之后公式中省略底数。
按上述公式展开,得
要使上述等式对任意独立的随机事件都成立,只能是
因此 阿尔法为任意常数。
由此我们得到了信息量的表达式
再结合性质3,可知,并且这个系数对我们度量信息量并无太大影响,因为所有的随机事件度量信息量时都要乘上这个系数,"一视同仁"。那么就设为最简单的吧。底数大小同理。
有了信息量的公式,我们发现它是随机事件发生概率的对数值。假设有一个随机变量,它包含了很多个随机事件,我们想知道这个随机变量带给了我们多少信息量,但我们事先不知道这个随机变量的值是多少,只能预先估计,对随机变量所有事件都按概率取值并计算信息量,也就是的信息量期望,它也被称呼为信息熵。
至此我们得到了信息熵的表达式,它是对随机变量不确定性的度量,是对所有可能发生的随机事件的期望。
从公式可知,随机变量的取值个数越多,状态数也就越多,信息熵就越大,混乱程度就越大。当随机分布为均匀分布时,熵最大。信息熵只与随机变量的分布有关,与其值无关。
2.2 联合熵
上述是一元随机变量,我们把它推广到多元随机变量
2.3 条件熵
在条件分布的基础上,来定义条件熵,已知随机变量取了某个值,那么随机变量在条件下的熵就是
现在不知道随机变量取了什么值,需要预先估计的熵对的期望,因此
通俗来说,如果同时取某两个事先不知道的值,那么它的信息熵(平均信息量)有这么多,而单独取值时它的信息熵(平均信息量)是,自然就是在已知的条件下的平均信息量。
注意,上述并没有假设为相互独立,我们前面假设的是随机事件相互独立,针对的是信息量(),二者并不矛盾。进一步,如果假设独立,则。
3.结语
将熵引用到信息论中是一个影响深远的决策。下篇文章我们将看到诸多以熵为基础的公式、模型发挥真正威力,~