交叉熵推导

定义:

  • 信息量公式:
    (一个事件发生时,所包含的信息量,发生的概率越低,包含的信息量就越高,比如明天的太阳打东边升起,就是一句几乎不包含信息的话)
    I(x_0)=-log(p(x_0))
    其中x_0为随机变量的某个特定值,p是随机变量X的概率质量函数
  • 熵公式:
    (随机变量的信息量的期望值)
    离散:
    \begin{aligned} H(X)=E[I(X)]&=\sum_{i=1}^{m} I(x_i)p(x_i) \\ &=\sum_{i=1}^{m} -log(p(x_i))p(x_i) \\ &=-\sum_{i=1}^{m} p(x_i)log(p(x_i)) \end {aligned}
    连续:
    暂时不讨论
  • 相对熵:
    (KL散度,讨论的是一个概率如果用另一个概率来描述时,它所需要的额外信息量,被称为信息增量)
    现在存在两个概率pq,他们都是随机变量X的分布函数,现在它们的信息熵分别为:
    \begin {aligned} H_p(X)=E_p[I(X)]&=-\sum_{i=1}^{m} p(x_i)log(p(x_i)) \end {aligned} \\ \begin {aligned} H_q(X)=E_q[I(X)]&=-\sum_{i=1}^{m} q(x_i)log(q(x_i)) \end {aligned}
    \begin {aligned} D_{KL}(p||q)=\sum_{i=1}^m p(x_i) ln(\frac {p(x_i)} {q(x_i)}) \end {aligned}

推导可得交叉熵

  • 交叉熵:
    \begin {aligned} D_{KL}(p||q)&=\sum_{i=1}^m p(x_i ) ln(\frac {p(x_i)} {q(x_i)}) \\ & =\sum_{i=1}^m p(x_i) [ln(p(x_i)) - ln(q(x_i))] \\ & =\sum_{i=1}^m p(x_i)ln(p(x_i)) - \sum_{i=1}^m p(x_i) ln(q(x_i)) \\ & = -H(X) + [-( \sum_{i=1}^m p(x_i) ln(q(x_i)))] \end {aligned}
    其中,-( \sum_{i=1}^m p(x_i) ln(q(x_i)))就是交叉熵。
    H(p, q)=-\sum_{i=1}^m p(x_i) ln(q(x_i))

参考:
一文搞懂交叉熵在机器学习中的使用,透彻理解交叉熵背后的直觉-史丹利复合田
期望值-维基百科
相对熵-维基百科

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容