(11)监督学习-分类问题-logistic回归和最大熵模型

    (1)逻辑斯特回归来源于逻辑斯特分布,例如常见的sigmoid函数就是logistic分布函数中r = 1,u = 0;的特殊形式。

    其表达式为p(x) = \frac{1}{1+e^{-x} } 是一条S型的曲线

    对于二分类问题,逻辑斯特回归的目标是找到一条曲线,很好的将两个类别分开。(注:逻辑斯特回归也可解决多分类问题)

    对于输入向量,若判别函数判定它大于0,则其类别是1,若判定它小于0,则其类别是0。在逻辑斯特回归中通过判定其属于1和属于0 的概率来进行判别。

    P(Y= 0 |x) = 1-P(Y=1|x)

    P(Y = 0| x) = \frac{1}{1+e^{w*x+b}}

    P(Y = 1| x) = \frac{e^{w*x+b}}{1+e^{w*x+b}} (注意这两个公式可以互换,只与训练后的w无关)

     一个事件发生的几率是该事件发生的概率和不发生的概率的比值。\lg p =\lg \frac{p}{1-p}

    \lg \frac{p(Y=1|x)}{1-P(Y=1|x)}   = w*x+b

    输出Y=1的对数几率是输入x的线性函数。

    通过极大似然估计来求出模型中的参数。对于训练集X中的每一个数据x,设P(Y=1|x) =\pi (x),P(Y = 0| x) = 1-\pi (x)

    则似然函数为\coprod_{i=1}^n[ \pi (x_{i} )^{y_{i}} ][ 1-\pi (x_{i} )]^{1-y_{i}},取对数后的对数似然函数为\sum_{i}^n [y_{i}log\pi (x_{i} )+(1-y_{i} ) log(1-\pi (x_{i} ))]对其求极大值就可以得到w的估计值,可以使用最简单的梯度下降法求得。

(2)最大熵模型

    最大熵模型是概率图模型的一种,属于生成式模型。

    最大熵原理指出,对一个随机事件的概率分布进行预测时,预测应当满足全部已知的约束,而对未知的情况不要做任何主观假设。在这种情况下,概率分布最均匀,预测的风险最小,因此得到的概率分布的熵是最大。

    逻辑回归跟最大熵模型没有本质区别。逻辑回归是最大熵对应类别为二类时的特殊情况,也就是当逻辑回归类别扩展到多类别时,就是最大熵模型。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容