交叉熵

1.信息熵

1948年,香农在他著名的论文“通信的数学原理”中提高了“信息熵”的概念,解决了信息度量问题,同时量化了信息的作用。
H=\sum{p_i\log _2}p_{i}^{-1}如何理解信息熵
当等概率情况下,一个基本事件,其信息量就为1,单位为bit,会产生2种结果。当一个事件以基本事件为参照物,那么可能出现的结果为指数型增长,即为2^n种,则信息量为\log_{2} 2^n
当非等概率情况下如何求解不同情况的信息量呢?对于一个2^n种等概率结果,一种结果的概率是1/2^n,那么概率的导数就是结果数量,所以,信息量表达为\log_{2}p ^{-1}
我们需要将不同情况的概率与其信息量相乘求和(各种结果信息量的平均值),可得一个事件的信息熵

如果p(x)是连续型随机变量的概率密度分布函数,则信息熵的定义:
H(X)=-\int\limits_{x\in X}{p\left( x \right) \log p\left( x \right)}dx
信息熵与不确定的相关性
情况一:假定让一个观众猜测16只球队中,那个球队是冠军,通过折半查找,需要\log {16}次,即H_{1}=4。
情况二:假定球队包含了像西班牙、巴西、德国这样夺冠可能性大的球队,这样导致8只球队的概率并不一样。如果我们将夺冠可能性大的队伍分为一组,其余分为另外一组,这样我们不需要4次就可以猜出冠军队伍,即信息量H_{2}<4
综上,H_{2}<H_{1},因为情况二加入了先验信息,确定性更高,熵更小。因此信息熵可以作为随机变量确定性的度量。
同时,我们可以通过公式证明H_{2}不可能大于4。因为球队如果夺冠的可能性太大或者太低,确定性都不如输赢参半的高。

2.相对熵

相对熵又称KL散度,是两个随机分布间距离的度量。
\begin{split} D_{K L}(p \| q)=&\sum_{i=1}^{n} p\left(x_{i}\right) \log \left(\frac{p\left(x_{i}\right)}{q\left(x_{i}\right)}\right)\\ =&\sum_{i=1}^{n} p(x_{i}) \log p(x_{i})-\sum_{i=1}^{n} p(x_{i}) \log q(x_{i})\\=&H_p(q)-H(p) \end{split}根据展开式,相对熵表示样本真实分布P的情况下,使用Q分布进行编码相对于使用真实分布P进行编码的差量

3.交叉熵

根据相对熵公式得交叉熵:
H_p(q)=H(p)+D_{K L}(p \| q)
当交叉熵作为损失函数时,H(p)看作常数,所以交叉熵与KL距离在行为上是等价的,都反映了分布P,Q的相似程度。

4.运用

需要指出的是相对熵是不对称的,即D_{K L}(p \| q)\ne D_{K L}(q \| p)
为了让它对称,詹森和香农提出了一种计算相对熵的计算方法,将上面的不等式两边相加取平均。
相对熵的运用主要集中在信息处理中,比如比较两篇文章词频分布的相对熵来评估,文章是否存在抄袭。另外,利用相对熵还可以得到信息检索中最重要的概念:TF-IDF,详见数学之美P108

参考:
吴军-数学之美(第二版)
一文搞懂交叉熵在机器学习中的使用,透彻理解交叉熵背后的直觉

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,639评论 6 513
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,093评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 167,079评论 0 357
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,329评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,343评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,047评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,645评论 3 421
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,565评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,095评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,201评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,338评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 36,014评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,701评论 3 332
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,194评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,320评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,685评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,345评论 2 358

推荐阅读更多精彩内容