已知有n个特征x_i,我们需要通过这n个特征进行组合建模,最简单的即是线性组合,但是这里加入了一个扰动因子(为了模拟真实场景特征的变化)
为了实现数值与概率的映射,我们需要一个概率函数将上述线性变化之后的值转换为概率,针对2分类问题,该概率函数为sigmoid函数
针对2分类问题,分类为1和分类为0的概率分别为
这里我们假设Y|X服从伯努利分布,由伯努利分布公式可得观测概率为
因此可得似然函数为
下面将根据公式推导为什么该概率函数为sigmoid函数
假定概率函数具有以下性质
根据信息论中定义的最大熵可得
从上面的已知条件中,根据标准的解约束不等式优化方法(拉格朗日不等式可得)
这里对不等式求导,并令求导的结果等于0(求取极值)可得
求导之后可得
化简公式之后可得
将公式6带入公式1的条件2中化简可得
然后将公式7代入公式6可得最终的表达式(softmax函数)
针对2分类问题(k=2),化简softmax函数可得(sigmoid函数)
参考文献
The equivalence of logistic regression and maximum entropy models