logistic regression=sigmoid function + maximum likelyhood estimation(MLE)
一.逻辑回归和线性回归的区别:
1、主要在于损失函数的不同
linear用的是目标和拟合值之差的square error, 目标是具体的Number,
logistic用的是目标和拟合值(Probability)两个白努力分布的交叉熵。目标是0或1。此时对损失函数求偏微分,微分的结果显示目标和拟合值差距越大,导数越大;一直到差距最小的时候,导数越小。如果用square error替代cross entropy,则距离目标越远,微分值也是小的,模型会卡在微分为0的地方,但这个地方并不是正确解的地方,显示如图:
2. logistic regression其实是对线性回归做的函数变换,1/(1+e的-z)。"总之,线性回归和逻辑回归是属于同一种模型,但是它们要解决的问题不一样,前者解决的是regression问题,后者解决的是classification问题,前者的输出是连续值,后者的输出是离散值,而且前者的损失函数是输出y的高斯分布,后者损失函数是输出的伯努利分布。"这段是我在网上看的,觉得总结的特别好。
3. 模型的假设不同,让我们再回顾一下linear regression的假设:
(1)解释变量和被解释变量之间有线性关系 linear relationship;
(2) 误差项是正态分布的 multivariate normality
(3)解释变量之间不能有多重共线性 no multicollinearity
(4)同方差 homoscedasticity 对于解释变量的观测值, 其随机误差具有相同的方差
而logistic回归需要满足什么假设呢?
1. logistic回归不需要normality和同方差,也不要求线性关系,但是要求解释变量和被解释变量的odd之间有线性关系。
2、 其因变量为binary或者是probability。
3、残差和因变量服从的是二项分布。二项分布对应的是分类变量,所以不是正态分布,进而不是用最小二乘法,而是最大似然法来解决方程估计和检验问题。
4、 各观测对象间相互独立。
5.解释变量之间不要highly correlated。
二. logistic regression的应用:流行病的发生概率, 机器学习,分类预测。