目录:
一、最大熵原理
二、最大熵模型
三、对偶函数的极大化等价于最大熵模型的极大似然函数估计的证明
在介绍最大熵模型之前,先来简单介绍下最大熵原理。
一、最大熵原理
最大熵原理是概率模型学习的一个准则。
最大熵原理认为,学习概率模型时,在所有可能的概率模型中,熵最大的模型是最好的模型。通常用约束条件来确定概率模型的集合。
所以,最大熵原理也可以表述为在满足约束条件的模型集合中选取熵最大的模型。
假设离散随机变量X的概率分布是P(X),则熵是:

熵满足下列不等式:

其中, 是X的取值个数,当且仅当X的分布是均匀分布时右边的等号成立。
即,当X服从均匀分布时,熵最大。
上下限的证明过程,如下:

其中,

(ai是X=xi的个数,n为总数)


所以原始式为:

注: logn是一个大于等于0的数,logn=logx且ai>=0
(1)上限的证明
首先,我们知道,

其中的每一项均大于等于0,所以其和大于等于0.

又因为n>0,所以其乘积小于等于0

为了求其最大值,我们需要令不等式(1-10)为0,当且仅当 a1=...=an=1时,该不等式取0.
因此,当且仅当X的分布是均匀分布时右边的等号成立。
(2)下限的证明
我们令aj=n,其余为0.
等式(1-7)的值为0.
综上,证明结束。
二、最大熵模型
1、最大熵模型的定义
假设满足所有的约束条件的模型集合为

定义在条件概率分布P(Y|X)上的条件熵为

模型满足的条件:
(1)训练数据集

(2)联合分布P(X,Y)的经验分布


为训练数据中样本(x,y)出现的频数。
N:训练样本容量
(3)边缘分布P(X)


为训练数据中输入x出现的频数
(4)特征函数f(x,y):描述输入x的输出y之间的某一个事实

(5)特征函数f(x,y)关于经验分布的期望值

(6)特征函数f(x,y)关于模型P(Y|X)与经验分布的期望值

其中,根据概率统计的知识我们可知:

如果模型能够获取训练数据中的信息,那么就可以假设这两个期望值相等

或

2、最大熵模型的学习
最大熵模型的学习就是求解最大熵模型的过程,下面简单的讲解下求解的过程。
(1)将最大熵模型等价于约束最优化问题
对于给定的训练数据集

以及特征函数


(2)按照最优化问题的习惯,将求最大值问题改写为等价的求最小值问题



(3)引入拉格朗日乘子,定义拉格朗日乘子函数

将等式(2-12)(2-6)(2-7)代入到等式(2-15)中,得到等式(2-16):

因此原始问题则变为:

(4)将原始问题转换成对偶问题
因为拉格朗日函数L(P,w)是P的凸函数,原始问题的解与对偶问题的解是等价的。
因此我们将原始问题转换为对偶问题:

(5)对对偶问题(2-18)进行求解
① 求解对偶问题内部的极小化问题。
我们(2-18)内部的极小化问题是关于w的函数,将其记作

其中

② 函数L(P,w)对P(y|x)的偏导数

③ 令偏导数为0,解得:

即,

④ 因为

所以

解得

因此我们令

⑤ 求解对偶问题外部的极大化问题

该问题解为

综上,我么可以应用最优化算法求对偶函数的极大化,得到 ,用来表达
,其中,

是学习到的最大熵模型,即最大熵模型的学习归结为对偶函数的极大化。
三、对偶函数的极大化等价于最大熵模型的极大似然函数估计的证明
我们即将证明最大熵模型学习中的对偶函数极大化等价于最大熵模型的极大似然估计这一事实。
这样,最大熵模型的学习问题就转换为具体求解对数似然函数极大化或者对偶函数极大化的问题。
下面是证明过程。

则对偶函数的极大化

最大模型的极大似然估计

证明对偶函数的极大化等价于最大熵模型的极大似然估计。
即证明等式(3-1)与等式(3-2)相等即可。

证明:
(1)等式左边:
根据

所以得到等式(3-4):

将等式(2-27)代入等式(3-4)中,得到等式(3-5):

根据

所以得到等式(3-6),

根据

所以得到等式(3-7),

(2)等式右边:

将等式(3-8)整理可得等式(3-9),

将等式(2-24)代入,得到等式(3-10)(3-11),


即等式左边等于右边:

证明完毕。