最大熵

1 概述

        最大熵原理是一种选择随机变量统计特性最符合客观情况的准则,也称为最大信息原理。最大熵原理认为,学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型是最好的模型。通常用约束条件来确定概率模型的集合,所以,最大熵原理也可以表述为在满足约束条件的模型集合中选取熵最大的模型。
        假设离散随机变量X的概率分布是P(X),则其熵是H(P)=-\sum_{x}P(x)logP(x)
熵满足下列不等式:0\leq H(P)\leq log|X|
式中,|X|是X的取值个数,当且仅当X的分布是均匀分布时右边的等号成立。这就是说,当X服从均匀分布时,熵最大

2 最大熵的定义

        给定训练数据集,可以确定联合分布P(X,Y)的经验分 布和边缘分布P(X)的经验分布,分别以 (X,Y)和 (X)表示。
                               \tilde{P}(X=x,Y=y)=\frac{v(X=x,Y=y)}{N}            

                                            \tilde{P}(X=x)=\frac{v(X=x)}{N}
其中,v(X=x,Y=y)表示训练数据中样本(X,Y)出现的频数,v(X=x)表示训练数据中输入x出现的频数,N表示训练样本容量。
用特征函数f(X,Y)描述输入x和输出y之间的某一个事实。其定义是

特征函数f(X,Y)关于经验分布 (X,Y)的期望值,用

                                       E_{\tilde{P}(f) } 表示:E_{\tilde{P}(f) } =\sum_{x,y}{P}(x,y)f(x,y)

特征函数f(X,Y)关于模型P(Y|X)与经验分布 (X)的期望值,用E_{P(f) } 表示:

                                      E_{{P}(f) } =\sum_{x,y}{\tilde{P} }(x,y)P(y|x)f(x,y)
如果模型能够获取训练数据中的信息,那么就可以假设这两个期望值相等,即

                                                    E_{P}(f)=E_{\tilde{P} }(f)

我们将上式作为模型学习的约束条件。假如有n个特征函数fi(X,Y),i =1,2,…,n,那么就有n个约束条件。

定义6.3(最大熵模型) 假设满足所有约束条件的模型集合为

                            C\equiv \left\{ P\in \rho |E_{p}(f_{i})=E_{\tilde{P}(f_{i} ) } ,i=1,2,...,n   \right\}

定义在条件概率分布P(Y|X)上的条件熵为

                               H(P)=- \sum_{x,y}{\tilde{P} }(x,y)P(y|x)logP(y|x)

则模型集合中条件熵H(P)最大的模型称为最大熵模型。式中的对数为自然对数

3 最大熵模型的求解

        对于给定的训练数据集T=\left\{ (x_{1},y_{1}),(x_{2},y_{2}),...,(x_{N},y_{N}) \right\} 以及特征函数fi(X,Y),i=1,2,…,n,最大熵模型的学习等价于约束最优化问题:

                                 \max_{p\in C}  H(P)=- \sum_{x,y}{\tilde{P} }(x,y)P(y|x)logP(y|x)

                                    s.t.      E_{P}(f)=E_{\tilde{P} }(f)  ,i=1,2,...,n

                                                \sum_{y}P(y|x)=1

按照最优化问题的习惯,将求最大值问题改写为等价的求最小值问题:

                                 \min_{p\in C}  H(P)= \sum_{x,y}{\tilde{P} }(x,y)P(y|x)logP(y|x)           (6.14)     

                                   s.t.      E_{P}(f)-E_{\tilde{P} }(f) = 0,i=1,2,...,n         (6.15)

                                                \sum_{y}P(y|x)=1                                                (6.16)

求解约束最优化问题(6.14)~(6.16),所得出的解,就是最大熵模型学习的解。下面给出具体推导。

        这里,将约束最优化的原始问题转换为无约束最优化的对偶问题。通过求解对偶问题求解原始问题。

        首先,引进拉格朗日乘子w_{0}, w_{1}, ...,w_{n} ,定义拉格朗日函数L(P,w):

L(p,w)\equiv -H(P)+w_{0}(1+\sum_{y}P(y|x))+\sum_{i=1}^n w_{i}(E_{P}(f)-E_{\tilde{P} }(f))

=\sum_{x,y}{\tilde{P} }(x,y)P(y|x)logP(y|x)+w_{0}(1+\sum_{y}P(y|x))+\sum_{i=1}^n w_{i}(\sum_{x,y}{P}(x,y)f_{i} (x,y)-\sum_{x,y}{\tilde{P} }(x,y)P(y|x)f_{i} (x,y))

        最优化的原始问题是                            \min_{p\in C} \max_{w}L(P,w)

        对偶问题是                                             \max_{w}\min_{p\in C}L(P,w)

L(P,w)P(y|x)的偏导数,并令偏导数等于0,在\tilde{P}(x)>0 的情况下,解得

                                                    P_{w}(y|x)=\frac{1}{Z_{w} }exp(  \sum_{i=1}^n w_{i}f_{i}(x,y  ))   (6.22)

其中,                                        Z_{w} =\sum_{y} exp( \sum_{i=1}^n  w_{i}f_{i}(x,y  ))         (6.23)

Zw(x)称为规范化因子;fi(X,Y)是特征函数;wi是特征的权值。由式(6.22)、式(6.23)表示的模型Pw=Pw(Y|X)就是最大熵模型。这里,w是最大熵模型中的参数向量。

之后,求解对偶问题外部的极大化问题                                              \max_{w} \psi (w) ,

将其解记为w*,即                                                                        w^*=arg \max_{w} \psi (w)

4 模型的学习的最优化算法

        逻辑斯谛回归模型、最大熵模型学习归结为以似然函数为目标函数的最优化问题,通常通过迭代算法求解。

4.1 改进的迭代尺度法(IIS)

        IIS的想法是:假设最大熵模型当前的参数向量是w=(w_{1}, w_{2},...,w_{n})^T ,我们希望找到一个新的参数向量w+\delta =(w_{1}+\delta _{1} , w_{2}+\delta _{2},...,w_{n}+\delta _{n})^T ,使得模型的对数似然函数值增大。如果能有这样一种参数向量更新的方法\tau :w{\to } w+\delta ,那么就可以重复使用这一方法,直至找到对数似然函数的最大值。



4.2 拟牛顿法(BFGS)




©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,233评论 6 495
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,357评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,831评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,313评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,417评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,470评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,482评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,265评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,708评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,997评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,176评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,827评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,503评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,150评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,391评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,034评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,063评论 2 352

推荐阅读更多精彩内容