NLP-信息熵、条件熵、互信息的简介

一、信息熵

1948年,香农在他的《通信的数学原理》中提出了信息熵的概念,解决了信息的度量问题,如何理解信息的度量,通俗的解释就是有多少信息量,一条信息的信息量与其不确定性有着直接的关系,信息熵代表了事件的不确定程度,概率越大,不确定程度越小,概率越小,不确定程度越大。比如某事情A经常发生,那么它的信息量就相对小,如果某件事B发生的概率极低,那么它的信息量就相对大。信息熵的定义如下:

H(X)=-\sum_{x \ in \ X}{P(x)*logP(x)} \tag {注意:定义0log0=0,H(X)单位:比特}

用一个例子来理解该公式:

假设你想知道隔壁班在本次考试中谁得了第一,那么对应的信息熵为:
H(X)=P(A第一)*logP(A第一)+P(B第一)*logP(B第一)+P(C第一)*logP(C第一)+...

二、条件熵

为什么引入条件熵呢?基于一、,一条信息的信息量与其不确定性有着直接的关系,也就是知道得越多,随机事件的不确定性越小,也就是信息量越小,如果你想知道事件X的信息量,而事件Y的不确定性对X有影响,那么在知道Y的条件下,X的信息熵为:

H(X|Y)=-\sum_{x \ in \ X,y \ in \ Y}{P(x,y)*logP(x|y)}

三、互信息

  • 简介
    基于二、,假设了Y对X有影响,也就是X和Y之间有相关性,那么如何度量这种相关性呢?在此引入互信息,定义如下:

假设有两个随机事件X和Y,那么他们的互信息如下:
I(X;Y)=\sum_{x \ in \ X,y \ in \ Y}{P(x,y)*log{\frac{P(x,y)}{P(x)*P(y)}}}
=H(X)-H(X|Y)
可认为:在了解Y的前提下,对消除X的不确定性所提供的信息量

  • 应用-歧义消解
    原理:假设词语X有两层含义a和b,在不同语境下的意思不一致,需要在不同的语境中理解为不同的含义,但是由于都是X无法区分,那么,可以从大量的本文之中,找出和a互信息比较大的n个词作为a的特征,找出和b互信息比较大的n个词作为b的特征,但出现一段文本的时候,根据特征识别X的具体含义,如下(以苹果为例,苹果包含水果和苹果公司两层含义):
    1、从关于苹果公司的语料中学习a的特征
  • 原始语料
语料1:苹果 致力 于 科技
语料2:美国人 支持 苹果 公司
语料3:苹果 是一家 科技 公司
  • 去除停用词
语料1:苹果 致力 科技
语料2:美国人 支持 苹果 公司
语料3:苹果 科技 公司
  • 概率统计

语料库中的长度为10,P(苹果)=\frac{3}{10}
P(致力)=\frac{1}{10},P(致力,苹果)=\frac{1}{7}
P(科技)=\frac{2}{10},P(科技,苹果)=\frac{2}{7}
P(美国人)=\frac{1}{10},P(美国人,苹果)=\frac{1}{7}
P(支持)=\frac{1}{10},P(支持,苹果)=\frac{1}{7}
P(公司)=\frac{2}{10},P(公司,苹果)=\frac{2}{7}

那么

根据I(X;Y)=\sum_{x \ in \ X,y \ in \ Y}{P(x,y)*log{\frac{P(x,y)}{P(x)*P(y)}}}得(这里词已是最小单位,无需\sum):
I(a;致力)=P(致力,苹果)*log\frac{P(致力,苹果)}{P(苹果)*P(致力)}=\frac{1}{7}*log \frac{\frac{1}{7}}{\frac{3*1}{10*10}}=0.2229
I(a;科技)=\frac{2}{7}*log \frac{\frac{2}{7}}{\frac{3*2}{10*10}}=0.2478
I(a;美国人)=\frac{1}{7}*log \frac{\frac{1}{7}}{\frac{3*1}{10*10}}=0.2229
I(a;支持)=\frac{1}{7}*log \frac{\frac{1}{7}}{\frac{3*1}{10*10}}=0.2229
I(a;公司)=\frac{2}{7}*log \frac{\frac{2}{7}}{\frac{3*2}{10*10}}=0.2478

  • 提取苹果表示苹果公司的特征a:

本文提取互信息最大的两个特征:科技公司

2、类推:按照以上过程,提取苹果表示水果的特征b:
假设提取的b的特征为水果价格

3、判别:那么输入一个文本的时候,判断该文本中哪一类的特征多即可判断意思

参考:吴军老师的《数学之美》

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,294评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,780评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,001评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,593评论 1 289
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,687评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,679评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,667评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,426评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,872评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,180评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,346评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,019评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,658评论 3 323
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,268评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,495评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,275评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,207评论 2 352

推荐阅读更多精彩内容