Logistics Regression(二分类回归模型)用法详解

概述

logistics回归称作逻辑回归模型,虽然被称为回归模型,但属于分类算法,有二分类模型和多元分类模型等两种,常见的是二分类模型。【本篇博文集中介绍二分类的情况】

介绍

对于二分类的logistics回归,因变量y有“是”、“否”两个取值,记作1和0。假设在自变量x_{1} x_{2} x_{3} 、…、x_{p} 作用下(自变量x_{i} 即为特征项),y取“是”的概率为p,则取“否”的概率为1-plogistics回归模型研究的便是当y取“是”发生的概率p与自变量x_{1} ,x_{2} ,x_{3} ,...,x_{p} 之间的关系,当p>0.5时,y取1,当p<0.5时,y取0。将y取1和0的概率之比记作\frac{p}{1-p} ,称为事件的优势比(odds),对odds取自然对数即得logistics变换Logit(p)=\ln \frac{p}{1-p}  ,当p在(0,1)之间变化时,odds的取值范围为(0,+∞),则\ln \frac{p}{1-p}  的取值范围是(-∞,+∞),logistics回归模型就是建立\ln \frac{p}{1-p}  与自变量x_{i} 的线性回归模型(称为对数似然)。

logistics回归模型为:

\ln \frac{p}{1-p}  =\beta _{0} +\beta _{1}x_{1} +\beta _{2}x_{2}+...+\beta _{p}x_{p}+\varepsilon ,上式记作g(x)

【一般在预处理中,会将自变量x增添一列值x_{0} =1】

得到了概率值


logistics函数也称sigmod函数,是一种阶跃函数

从这一层意义上说,logistics回归在本质上依然是线性回归模型,只是在最后加了一层连接函数——sigmod函数,使概率值非线性地映射到了(0,1)之间,这种模型称为广义线性模型。所以与SVM、神经网络等非线性分类器相比,如果要针对大规模数据进行快速分类预测,logistics回归具有相当大的时间优势。


【广义线性模型GLM】

一个GLM包含三个要素:

1.指数族的概率分布。(二项分布属于指数族分布)【资料:https://blog.csdn.net/touristman5/article/details/57402762

2.一个线性预测器,如\eta =X*\beta

3.一个连接函数g,如sigmod函数。


所以回归的重点便是如何拟合回归系数\beta _{i} ,方法是基于logistics回归的损失函数(代价函数)来进行推导的,比如随机梯度上升(下降)算法、牛顿法、拟牛顿法等。

logistics回归的代价函数(方法论是极大似然估计)

资料:

https://blog.csdn.net/zjuPeco/article/details/77165974?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.nonecase&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.nonecase

https://blog.csdn.net/weixin_41960890/article/details/104939240?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522159474045019724843307052%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fall.%2522%257D&request_id=159474045019724843307052&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~first_rank_ecpm_v3~pc_rank_v2-2-104939240.first_rank_ecpm_v3_pc_rank_v2&utm_term=%E5%A6%82%E4%BD%95%E4%BB%8E%E5%AF%B9%E6%95%B0%E4%BC%BC%E7%84%B6%E7%9A%84%E8%A7%92%E5%BA%A6%E7%90%86%E8%A7%A3logistics%E5%9B%9E%E5%BD%92

【损失函数针对的是单个样本,代价函数针对的是整个数据集】



以上内容是针对logistics回归算法的原理进行了简要介绍,在实际应用中可以直接采用sklearn库中的LogisticsRegression库进行建模,其参数的具体用法实际再说。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。