交叉熵、KL散度和极大似然

https://www.zhihu.com/question/65288314
https://www.cnblogs.com/arkenstone/p/10524720.html

A和B的KL散度 = A和B的交叉熵 - A的熵:
a. 当A的熵为常亮时，KL散度和交叉熵是等价的
b. 模型使用交叉熵作为损失函数，实际上是学习训练集的数据分布（模型输出分布和训练集分布差距减小，交叉熵定义；默认训练集分布和真实分布保持一致，这是所有模型训练的基础）
交叉熵最小实质上就是最大似然估计(MLE)

image.png

注：

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

机器学习中的熵、条件熵、相对熵(KL散度)和交叉熵
GitHub简书CSDN 该文章转载自详解机器学习中的熵、条件熵、相对熵和交叉熵 1、信息熵 (informati...
MaosongRan阅读 2,562评论 0赞 0
信息论2（自信息、信息熵、联合熵、条件熵、交叉熵、相对熵（KL散度）、互信息、最大互信息系数）
1、前言在研究机器学习一些算法原理时，经常会出现各种有关信息论的概念（自信息、互信息等），此前已分享过一篇文...
田浩thao阅读 4,419评论 3赞 9

信息熵、条件熵、联合熵、互信息、相对熵、交叉熵
1、信息量信息量是通过概率来定义的：如果一件事情的概率很低，那么它的信息量就很大；反之，如果一件事情的概率很高，...
李威威阅读 12,359评论 1赞 15
信息论，熵，KL散度，交叉熵
信息论交叉熵是信息论中的一个概念，要想了解交叉熵的本质，需要先从最基本的概念讲起。 1 信息量首先是信息量。假设我...
水球喵阅读 517评论 0赞 0
交叉熵相对熵（KL散度/互熵）
香农熵熵考察（香农熵）的是单个的信息（分布）的期望：反映了一个系统的无序化（有序化）程度，一个系统越有序，信息熵...
Arya鑫阅读 5,054评论 0赞 6

赞1赞

赞赏

手机看全文