交叉熵推导

定义：

信息量公式：
（一个事件发生时，所包含的信息量，发生的概率越低，包含的信息量就越高，比如明天的太阳打东边升起，就是一句几乎不包含信息的话）
$I(x_0)=-log(p(x_0))$
其中 $x_0$ 为随机变量的某个特定值， $p$ 是随机变量 $X$ 的概率质量函数
熵公式：
（随机变量的信息量的期望值）
离散：
$\begin{aligned} H(X)=E[I(X)]&=\sum_{i=1}^{m} I(x_i)p(x_i) \\ &=\sum_{i=1}^{m} -log(p(x_i))p(x_i) \\ &=-\sum_{i=1}^{m} p(x_i)log(p(x_i)) \end {aligned}$
连续：
暂时不讨论
相对熵：
（KL散度，讨论的是一个概率如果用另一个概率来描述时，它所需要的额外信息量，被称为信息增量）
现在存在两个概率 $p$ 与 $q$ ，他们都是随机变量 $X$ 的分布函数，现在它们的信息熵分别为：
$\begin {aligned} H_p(X)=E_p[I(X)]&=-\sum_{i=1}^{m} p(x_i)log(p(x_i)) \end {aligned} \\ \begin {aligned} H_q(X)=E_q[I(X)]&=-\sum_{i=1}^{m} q(x_i)log(q(x_i)) \end {aligned}$
$\begin {aligned} D_{KL}(p||q)=\sum_{i=1}^m p(x_i) ln(\frac {p(x_i)} {q(x_i)}) \end {aligned}$

交叉熵：
$\begin {aligned} D_{KL}(p||q)&=\sum_{i=1}^m p(x_i ) ln(\frac {p(x_i)} {q(x_i)}) \\ & =\sum_{i=1}^m p(x_i) [ln(p(x_i)) - ln(q(x_i))] \\ & =\sum_{i=1}^m p(x_i)ln(p(x_i)) - \sum_{i=1}^m p(x_i) ln(q(x_i)) \\ & = -H(X) + [-( \sum_{i=1}^m p(x_i) ln(q(x_i)))] \end {aligned}$
其中， $-( \sum_{i=1}^m p(x_i) ln(q(x_i)))$ 就是交叉熵。
$H(p, q)=-\sum_{i=1}^m p(x_i) ln(q(x_i))$

最后编辑于：2021.12.15 14:15:55

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。