1 概述
最大熵原理是一种选择随机变量统计特性最符合客观情况的准则,也称为最大信息原理。最大熵原理认为,学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型是最好的模型。通常用约束条件来确定概率模型的集合,所以,最大熵原理也可以表述为在满足约束条件的模型集合中选取熵最大的模型。
假设离散随机变量X的概率分布是P(X),则其熵是
熵满足下列不等式:
式中,|X|是X的取值个数,当且仅当X的分布是均匀分布时右边的等号成立。这就是说,当X服从均匀分布时,熵最大。
2 最大熵的定义
给定训练数据集,可以确定联合分布P(X,Y)的经验分 布和边缘分布P(X)的经验分布,分别以 (X,Y)和 (X)表示。
其中,v(X=x,Y=y)表示训练数据中样本(X,Y)出现的频数,v(X=x)表示训练数据中输入x出现的频数,N表示训练样本容量。
用特征函数f(X,Y)描述输入x和输出y之间的某一个事实。其定义是
特征函数f(X,Y)关于经验分布 (X,Y)的期望值,用
表示:
特征函数f(X,Y)关于模型P(Y|X)与经验分布 (X)的期望值,用表示:
如果模型能够获取训练数据中的信息,那么就可以假设这两个期望值相等,即
我们将上式作为模型学习的约束条件。假如有n个特征函数fi(X,Y),i =1,2,…,n,那么就有n个约束条件。
定义6.3(最大熵模型) 假设满足所有约束条件的模型集合为
定义在条件概率分布P(Y|X)上的条件熵为
则模型集合中条件熵H(P)最大的模型称为最大熵模型。式中的对数为自然对数。
3 最大熵模型的求解
对于给定的训练数据集以及特征函数fi(X,Y),i=1,2,…,n,最大熵模型的学习等价于约束最优化问题:
s.t.
按照最优化问题的习惯,将求最大值问题改写为等价的求最小值问题:
(6.14)
s.t. (6.15)
(6.16)
求解约束最优化问题(6.14)~(6.16),所得出的解,就是最大熵模型学习的解。下面给出具体推导。
这里,将约束最优化的原始问题转换为无约束最优化的对偶问题。通过求解对偶问题求解原始问题。
首先,引进拉格朗日乘子,定义拉格朗日函数
最优化的原始问题是
对偶问题是
求对的偏导数,并令偏导数等于0,在的情况下,解得
(6.22)
其中, (6.23)
Zw(x)称为规范化因子;fi(X,Y)是特征函数;wi是特征的权值。由式(6.22)、式(6.23)表示的模型Pw=Pw(Y|X)就是最大熵模型。这里,w是最大熵模型中的参数向量。
之后,求解对偶问题外部的极大化问题 ,
将其解记为w*,即
4 模型的学习的最优化算法
逻辑斯谛回归模型、最大熵模型学习归结为以似然函数为目标函数的最优化问题,通常通过迭代算法求解。
4.1 改进的迭代尺度法(IIS)
IIS的想法是:假设最大熵模型当前的参数向量是,我们希望找到一个新的参数向量,使得模型的对数似然函数值增大。如果能有这样一种参数向量更新的方法,那么就可以重复使用这一方法,直至找到对数似然函数的最大值。