信息论、最大熵模型、EM算法

基础概念

  • 什么是信息

当一件事情(宏观态)有多种可能情况时,这种情况(宏观态)对某人而言具体有哪些情况(微观态)的不确定性 叫做熵。
而能够消除某人对这件事(宏观态)不确定性的事情 叫做信息。
熵和信息数量相等,意义相反(消除熵 = 获取信息)
数据 = 信息 + 噪音

  • 量化信息

选择的参考事件是 只有两种等概率情况的事件,0 1 (同时也是计算机存储信息的方式bit
举例:抛掷硬币3 次 出现的可能情况为8种,2^3=8 \rightarrow log_2 8 = 3
则抛掷硬币3次 所包含的熵 有3bit,即8个不确定情况 相当于3个硬币抛出的结果

提供信息后总的熵.png

求得提供信息后剩余的总熵 即有一半可能是C提供了的信息

熵表示的是不确定性,相加是所有剩余的不确定性总和。2-1.79=0.21bit表示的是消除熵 = 获取的信息 即提供的信息量

自信息

  • 信息:i(x) = -log(p(x))

如果说概率p 是确定性的度量,那么信息就是对不确定性的度量
p(xy)=p(x)p(y)\quad i(xy) = i(x) + i(y)

  • 熵:自信息的期望

熵是对平均不确定的度量
H(X) = - \sum_{x\in X}P(x) \times logP(X)
单个值-xlog(x)
如果结果只有两个,那么熵为 -xlog(x)-(1-x)*log(1-x)是不是和逻辑回归的损失函数一样丫

熵.png
  • 三点分布的熵图


    三点分布.png
  • 理解

均匀分布是最不确定的分布,比如硬币的正反面,你猜不出下一次到时是正面还是反面。

互信息

  • 定义 i(y,x)=i(y)-i(y|x) = log(p(y|x)/p(y)) = i(x,y)

可以理解为,我们在得知了部分条件下y的情况,那么y的剩余信息就逐渐变少。

  • 平均互信息
    I(X;Y)=\sum_{x \in{X},y \in {Y}}P(x,y)log\frac{P(x,y)}{P(x)P(y)}
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 信息论是应用数学的一个分支,主要研究的是对一个信号包含信息的多少进行量化。它最初被发明是用来研究在一个含有噪声的信...
    DejavuMoments阅读 3,564评论 0 2
  • 最大熵模型 0.引言 这部分内容主要是从七月在线的课程上学习到的,算是自己的学习笔记。在介绍最大熵模型和EM算法之...
    吴金君阅读 5,368评论 0 1
  • 欢迎关注我的专栏( つ•̀ω•́)つ【人工智能通识】【汇总】2019年4月专题 最大熵是什么?最大熵有什么意义? ...
    张老师Klog阅读 11,015评论 0 3
  • mybatis二级缓存 1.mybatis的一级缓存sqlsession 2.二级缓存指的同一命名空间(names...
    闫子扬阅读 1,657评论 0 0
  • 今天中午在腾飞后面的苹果区。来了一对母子,母亲四十多岁,儿子十五六岁,母亲模样一般,孩子却是基因优良。 ...
    桥上风景阅读 2,812评论 1 2