最大熵

最大熵模型

  • definition
    假设满足所有约束条件的模型集合为

C\equiv P\epsilon P|E_p(f_i)=E_{\hat{p}}(f)
定义在条件概率分布
P(X|Y)上的条件熵为 H(P)=-\sum_{x,y}\hat{P}(x)p(y|x)logP(Y|x)
最大熵的模型学习过程就是求解最大熵模型的过程,最大熵模型的学习可以形式化为约束最优化问题。顾最大熵模型的学习等价于约束最优化问题:
max(P\epsilon C) \ H(P)=-\sum_{x,y}\hat{P}(x)p(y|x)logP(Y|x)\\ s.t. \ E_p(f_i)=E_{\hat{p}}(f),i=1,2,3....n\\ \sum_{y}P(y|x)=1
利用拉格朗日对偶性实现将约束最优化问题转化为无约束优化对偶问题,
所以引入拉格朗日乘子w0,w1,...wn
L(P,w)=-H(P)+w_0(1-\sum_{y}P(y|x))+\sum_{i=1}^{n}w_i(E_p(f_i)=E_{\hat{p}}(f))
简单理解,就是将条件都加入到拉格朗日方程中,然后下面用求解对偶问题的方法,将变量进行进一步转化,从而对问题的求解
所以针对条件熵的最大值,用上面的解法,课得出来
P_w(y|x)=\frac{1}{Z_w(x)}exp{[\sum_{i}^{n}w_if_i(x,y)]} \\其中Z_w(x)=\sum_{y}exp(w_if_i(x,y))

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容