信息熵
信息熵也被称为熵,用来表示所有信息量的期望。其中X是一个离散型随机变量。
相对熵
相对熵即KL散度。如果随机变量X有两个单独的概率分布P(x)和Q(x),用KL散度即相对熵来衡量两个概率分布之间的差异。KL散度越接小,代表两个分布越接近。训练Q(x)来使得Q(x)逼近P(x)。
交叉熵
相对熵=交叉熵-信息熵
为什么分类要用交叉熵?
1、交叉熵=相对熵+信息熵。交叉熵能够衡量同一个随机变量中的两个不同概率分布的差异程度,即真实概率分布与预测概率分布之间的差异。交叉熵的值越小,模型预测效果就越好。
2、交叉熵在分类问题中常常与softmax是标配。
为什么交叉熵和softmax是标配?
首先在二元分类的情况下,Softmax 退化为了 Sigmoid。详见:
softmax与sigmoid
那为什么交叉熵损失却可以呢?因为-log抵消掉了exp!