登录注册写文章

信息论、最大熵模型、EM算法

信息论、最大熵模型、EM算法

基础概念

什么是信息

当一件事情（宏观态）有多种可能情况时，这种情况（宏观态）对某人而言具体有哪些情况（微观态）的不确定性叫做熵。
而能够消除某人对这件事（宏观态）不确定性的事情叫做信息。
熵和信息数量相等，意义相反（消除熵 = 获取信息）
数据 = 信息 + 噪音

量化信息

选择的参考事件是只有两种等概率情况的事件，0 1 （同时也是计算机存储信息的方式 $bit$ ）
举例：抛掷硬币3 次出现的可能情况为8种， $2^3=8 \rightarrow log_2 8 = 3$
则抛掷硬币 $3$ 次所包含的熵有 $3bit$ ，即 $8$ 个不确定情况相当于 $3$ 个硬币抛出的结果

提供信息后总的熵.png

求得提供信息后剩余的总熵即有一半可能是C提供了的信息

熵表示的是不确定性，相加是所有剩余的不确定性总和。2-1.79=0.21bit表示的是消除熵 = 获取的信息即提供的信息量

自信息

信息： $i(x) = -log(p(x))$

如果说概率 $p$ 是确定性的度量，那么信息就是对不确定性的度量
$p(xy)=p(x)p(y)\quad i(xy) = i(x) + i(y)$

熵：自信息的期望

熵是对平均不确定的度量
$H(X) = - \sum_{x\in X}P(x) \times logP(X)$
单个值 $-xlog(x)$
如果结果只有两个，那么熵为 $-xlog(x)-(1-x)*log(1-x)$ 是不是和逻辑回归的损失函数一样丫

熵.png

三点分布的熵图

三点分布.png
理解

均匀分布是最不确定的分布，比如硬币的正反面，你猜不出下一次到时是正面还是反面。

互信息

定义 $i(y,x)=i(y)-i(y|x) = log(p(y|x)/p(y)) = i(x,y)$

可以理解为，我们在得知了部分条件下 $y$ 的情况，那么 $y$ 的剩余信息就逐渐变少。

平均互信息
$I(X;Y)=\sum_{x \in{X},y \in {Y}}P(x,y)log\frac{P(x,y)}{P(x)P(y)}$

最后编辑于：2019.10.19 17:10:32

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

Machine Learning：信息论基础
信息论是应用数学的一个分支，主要研究的是对一个信号包含信息的多少进行量化。它最初被发明是用来研究在一个含有噪声的信...
DejavuMoments阅读 3,564评论 0赞 2
最大熵模型
最大熵模型 0.引言这部分内容主要是从七月在线的课程上学习到的，算是自己的学习笔记。在介绍最大熵模型和EM算法之...
吴金君阅读 5,368评论 0赞 1
人工智能通识-科普-最大熵
欢迎关注我的专栏( つ•̀ω•́)つ【人工智能通识】【汇总】2019年4月专题最大熵是什么？最大熵有什么意义？ ...
张老师Klog阅读 11,015评论 0赞 3
mybatis二级缓存
mybatis二级缓存 1.mybatis的一级缓存sqlsession 2.二级缓存指的同一命名空间(names...
闫子扬阅读 1,657评论 0赞 0
2016.04.09.俊美的少年
今天中午在腾飞后面的苹果区。来了一对母子，母亲四十多岁，儿子十五六岁，母亲模样一般，孩子却是基因优良。 ...
桥上风景阅读 2,812评论 1赞 2

赞1赞

赞赏

手机看全文