一、信息熵(information entropy)
不确定性
设是不确定性的度量,则需满足
a. 是概率的减函数,且非负
b. 独立事件间具有可加性:
可知,满足以上条件,可作为不确定性度量。信息
信息的基本作用就是消除事物的不确定性。因而信息的度量等于不确定性的度量。信息熵
熵是体系混乱程度的度量。信息熵则是整个体系的不确定性的度量。公式表示为
相对熵(KL散度)
相对熵用于衡量某一概率分布q相对真实概率分布p的信息熵差异,公式为
相对熵始终非负,可通过Jensen不等式证明:
交叉熵
定义为概率分布q相对真实分布p的交叉熵。当p确定时,中只有与q相关,在优化时,等价于优化。
二、softmax+交叉熵
sigmoid函数
逻辑回归(LR)
对于二分类0-1问题,我们用sigmoid函数表示分类为1的概率
对于输入样本,为1时概率为,为0时概率为,则输出为的概率可统一写为
则其对数似然函数为:
对其求导:
也可以说损失函数导数为:softmax
对于softmax层,其多个输入分别为,经过该层后,分别对应输出为。
显然,对于二分类,softmax层等价于sigmoid函数的作用:
我们来看下导数:
softmax+交叉熵
交叉熵损失函数定义为,对其中一个输入值的偏导数如下:
可见在0-1分类情况下,softmax+交叉熵等价于sigmoid+对数似然。