信息理论概念

姓名:张志文 学号:19021210649
【嵌牛观察】
信息论是一个重要的领域,它对深度学习和人工智能作出了重大贡献,但很多人对它却并不了解。信息论可以看作是微积分、概率论和统计学这些深度学习基本组成部分的复杂融合。人工智能中的很多概念来自信息论或相关领域。
【嵌牛鼻子】
深度学习;信息论
【嵌牛提问】
关于深度学习的信息理论有哪些?
【嵌牛正文】

信息论简史

image

在20世纪初期,科学家和工程师们努力解决这样的问题:“如何量化信息?有没有一种分析方法或数学方法可以告诉我们信息的内容?”

例如,考虑以下两句话:

布鲁诺是一条狗。

布鲁诺是一条大棕狗。

第二句话给了我们更多的信息,因为它还告诉布鲁诺除了是“狗”之外还是“大的”和“棕色的”。我们如何量化两个句子之间的差异?我们能否有一个数学测量方法告诉我们第二句话与第一句话相比多了多少信息?

科学家们一直在努力解决这些问题。语义,域和数据形式只会增加问题的复杂性。数学家和工程师克劳德·香农提出了“熵”的概念,它永远改变了我们的世界,这标志着数字信息时代的开始。

image

克劳德·香农提出“数据的语义方面是无关紧要的”,数据的性质和含义在信息内容方面并不重要。相反,他根据概率分布和"不确定性"来量化信息。香农还引入了“bit”这个词,这一革命性的想法不仅奠定了信息论的基础,而且为人工智能等领域的进步开辟了新的途径。

下面将讨论深度学习和数据科学中四种流行的,广泛使用的和必须已知的信息论概念:

也可以称为信息熵或香农熵。

image

熵给出了实验中不确定性的度量。让我们考虑两个实验:

抛出一枚无偏硬币(P(H)= 0.5)并观察它的输出,假设H

抛出一枚有偏硬币(P(H)= 0.99)并观察其输出,假设H

如果我们比较两个实验,与实验1相比,实验2更容易预测结果。因此,我们可以说实验1本质上比实验2更不确定或不可预测。实验中的这种不确定性是使用熵度量的。

因此,如果实验中存在更多固有的不确定性,那么它的熵更大。或者说实验越不可预测熵越大。实验的概率分布用于计算熵。

一个完全可预测的确定性实验,即投掷P(H)= 1的硬币的熵为零。一个完全随机的实验,比如滚动无偏骰子,是最不可预测的,具有最大的不确定性,在这些实验中熵最大。

image

另一种观察熵的方法是我们观察随机实验结果时获得的平均信息。将实验结果获得的信息定义为该结果发生概率的函数。结果越罕见,从观察中获得的信息就越多。

例如,在确定性实验中,我们总是知道结果,因此通过观察结果没有获得新信息,因此熵为零。

数学定义

对于离散随机变量X,可能的结果(状态)x_1,...,x_n,熵(以位为单位)定义为:

image

其中p(x_i)是X的第i个结果的概率。

应用

熵用于自动决策树构造。在树构建的每个步骤中,使用熵标准来完成特征选择。

基于最大熵原理选择模型,从对比的模型中选出熵最大的模型为最佳模型。

交叉熵

交叉熵用于比较两个概率分布。它告诉我们两个分布有多相似。

数学定义

在相同的结果集上定义的两个概率分布p和q之间的交叉熵由下式给出:

image

应用

image

基于卷积神经网络的分类器通常使用softmax层作为最后一层,并使用交叉熵损失函数进行训练

交叉熵损失函数广泛用于逻辑回归等分类模型,随着预测偏离真实输出,交叉熵损失函数会增大。

在诸如卷积神经网络的深度学习架构中,最终输出的softmax层经常使用交叉熵作为损失函数。

交互信息

交互信息是两种概率分布或随机变量之间相互依赖性的度量。它告诉我们另一个变量有多少关于该变量的信息。

交互信息获取随机变量之间的依赖性,比一般的相关系数更具广义性,后者只表现线性关系。

数学定义

两个离散随机变量X和Y的交互信息定义为:

image

其中p(x,y)是X和Y的联合概率分布,p(x)和p(y)分别是X和Y的边缘概率分布。

应用

image

在贝叶斯网络中,可以使用交互信息来确定变量之间的关系结构

特征选择:使用交互信息,而不是使用相关性。相关性仅表现线性依赖性而忽略非线性依赖性,但交互信息不会。零的交互独立性保证随机变量是独立的,但零相关不是。

在贝叶斯网络中,交互信息用于学习随机变量之间的关系结构,并定义这些关系的强度。

Kullback Leibler(KL)散度

也称为相对熵。

image

KL散度是另一种表示两个概率分布之间相似性的方法。它衡量一个分布与另一个分布的差异。

假设我们有一些数据,它的真实分布是P。但是我们不知道P,所以我们选择一个新的分布Q来近似这个数据。由于Q只是一个近似值,它无法像P那样准确地逼近数据,会造成一些信息的丢失。这个信息损失由KL散度给出。

P和Q之间的KL散度告诉我们,当我们试图用P和Q来近似数据时,我们损失了多少信息。

数学定义

一个概率分布Q与另一个概率分布P的KL散度定义为:

image

应用

KL散度通常用于无监督机器学习技术中的变分自编码器。

信息论最初是由数学家和电气工程师克劳德·香农,在1948年的开创性论文“通信的数学理论”中提出的。

本文内容为转载,版权归作者所有

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,492评论 6 513
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,048评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,927评论 0 358
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,293评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,309评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,024评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,638评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,546评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,073评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,188评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,321评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,998评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,678评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,186评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,303评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,663评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,330评论 2 358

推荐阅读更多精彩内容