前言:机器学习这个吧,随便动动就能碰到我数学天花板。来吧,我们开始吧
拉格朗日函数主要用来求解在约束条件下的最优化问题,
一切从原始问题开始
称此约束最优化问题为原始最优化问题。
引入广义拉格朗日函数
这里,是拉格朗日乘子,.考虑 x 的函数:
这里,下标 表示原始问题。
假设给定某个 ,如果 违反原始问题的约束条件
- 假设有一个 使得 那么只要 其余参数为 0
- 或者假设有某个 使 ,则可令使
都可以得到
所以当都满足约束条件时, 可以得到所有的 都为 0。另一项恒为 0。此时
再最小化
与原始问题相同。
定义原始问题的最优值
又叫做广义拉格朗日函数的极小极大问题。
对偶问题
定义
之前的原始问题,第一步是把 当做常数,求。现在的对偶问题,第一步是把 当做常数求
在考虑极大化
这又叫做,广义拉格朗日函数的极大极小问题
定义最优值
原始问题和对偶问题的关系
这才是关键!!!如果求解不一样,那对偶函数有什么用!
在最大熵模型中,正是因为对偶问题和原始问题的解一样,才能互相转换。
现在来探讨这个对偶问题和原始问题的解一样的条件