熵的定义本质上是香浓信息量log(1/p)的期望。
信息熵
编码方案完美时,最短平均编码的长度
交叉熵
编码方案不一定完美时(由于对概率分布的估计不一定正确),平均编码的长度
H(p)是p的信息熵,后者是相对熵
相对熵
编码方案不一定完美时,平均编码长度相对于最小值的增加值。又被称作KL散度(Kullback-Leibler divergence)。
离散:
连续:
可以发现交叉熵=信息熵+相对熵。对于一个给定问题,用Machine Learning中的classify举例,对于训练集,信息熵是固定的,相对熵代表了分类结果与真实结果之间的差距,所以减小相对熵即是减小交叉熵,这就是很多常见模型的loss function。在Machine Learning中,交叉熵等效于相对熵。