概述
回归称作逻辑回归模型,虽然被称为回归模型,但属于分类算法,有二分类模型和多元分类模型等两种,常见的是二分类模型。【本篇博文集中介绍二分类的情况】
介绍
对于二分类的回归,因变量
有“是”、“否”两个取值,记作1和0。假设在自变量
、
、
、…、
作用下(自变量
即为特征项),
取“是”的概率为
,则取“否”的概率为
,
回归模型研究的便是当
取“是”发生的概率
与自变量
之间的关系,当
时,
取1,当
时,
取0。将
取1和0的概率之比记作
,称为事件的优势比(odds),对odds取自然对数即得logistics变换
,当
在(0,1)之间变化时,odds的取值范围为(0,+∞),则
的取值范围是(-∞,+∞),
回归模型就是建立
与自变量
的线性回归模型(称为对数似然)。
回归模型为:
,上式记作
【一般在预处理中,会将自变量增添一列值
=1】
则
从这一层意义上说,logistics回归在本质上依然是线性回归模型,只是在最后加了一层连接函数——sigmod函数,使概率值非线性地映射到了(0,1)之间,这种模型称为广义线性模型。所以与SVM、神经网络等非线性分类器相比,如果要针对大规模数据进行快速分类预测,logistics回归具有相当大的时间优势。
【广义线性模型GLM】
一个GLM包含三个要素:
1.指数族的概率分布。(二项分布属于指数族分布)【资料:https://blog.csdn.net/touristman5/article/details/57402762】
2.一个线性预测器,如。
3.一个连接函数,如sigmod函数。
所以回归的重点便是如何拟合回归系数,方法是基于logistics回归的损失函数(代价函数)来进行推导的,比如随机梯度上升(下降)算法、牛顿法、拟牛顿法等。
logistics回归的代价函数(方法论是极大似然估计)
资料:
【损失函数针对的是单个样本,代价函数针对的是整个数据集】
以上内容是针对logistics回归算法的原理进行了简要介绍,在实际应用中可以直接采用sklearn库中的LogisticsRegression库进行建模,其参数的具体用法实际再说。