Logistic Regression原理
逻辑回归模型本质上属于对数线性模型
下面对逻辑回归模型的原理进行介绍,同时介绍逻辑回归模型的学习算法(梯度下降法和拟牛顿法)
逻辑回归模型
logistic分布
设X是连续随机变量,X具有下列分布函数的密度分布:
求导可得
这里面,是位置参数(对称轴),是形状参数(越大图像越宽瘪,越小图像越细高)
logistic分布
逻辑回归二分类模型
二分类逻辑回归,由条件概率分布P(Y|X)表示,形式为参数化的logistic分布,这里随机变量Y的取值只有0或1。模型的参数通过监督学习的方法来估计
逻辑回归模型:
看作是下面条件概率分布的模型
这里面,x是输入,Y是输出,w,b是参数,w为权值向量,b为偏置(没有偏置项 b,那么就只能在空间里画过原点的直线/平面/超平面。这时对于绝大部分情况,要求决策面过原点,加上这个偏置项b,才能保证分类器可以在空间的任何位置画决策面),w*x 是w和x的内积
分类模型计算两个概率值,比较两者大小,将x分到概率大的那一类去
其本质上可以理解成线性回归求预测值->二分类,想让输出值转换到0,1上,这个时候引入了一个sigmoid函数(S型曲线):
普通线性模型:
求出所有w ,使误差函数最小
逻辑将回归将线性模型产生的预测值带入到sigmoid函数中,输出其对应的二分类概率
具体训练方法与线性回归一样,不同的是误差函数的求导
可以看到逻辑回归模型的一个特性:
其对数几率:
为x的线性函数
概率P
可以看到,逻辑回归就是将线性函数wx转换为概率值的一个模型,线性函数的值越接近正无穷,概率值越接近1,线性函数值越接近负无穷,概率值越接近0
模型参数估计
对于给定的训练数据集可以应用极大似然估计法估计模型参数。
设
对数似然函数为:
求解参数w,只需求解对数似然函数最大值的情况
通常采用梯度下降法和拟牛顿法学习
从另一个角度来看,机器学习目的是求得最优化的目标函数,逻辑回归的另一种理解方式如下:
逻辑回归的损失函数:
没加入正则项的话,目标函数就是求代价函数的最小值,可以看到与上述求对数似然函数最大值是同一个问题
参考:
几率:一个时间发生的几率odds是指该事件发生的概率与该事件不发生的概率的比值,即p/1-p。
对数几率:该事件的几率的对数值,既log(p/1-p)
似然函数:一种关于统计模型参数的函数。给定输出x时,关于参数θ的似然函数L(θ|x)(在数值上)等于给定参数θ后变量X的概率:L(θ|x)=P(X=x|θ)
对数似然函数:涉及到似然函数的许多应用中,更方便的是使用似然函数的自然对数形式,即“对数似然函数”。
似然函数取得最大值表示相应的参数能够使得统计模型最为合理:使得发生的样本出现的可能性最大。这就是最大似然估计的核心。
最大似然估计的做法是:首先选取似然函数(一般是概率密度函数或概率质量函数),整理之后求最大值。实际应用中一般会取似然函数的对数作为求最大值的函数,这样求出的最大值和直接求最大值得到的结果是相同的。
逻辑回归跟最大熵模型没有本质差别。逻辑回归是最大熵相应类别为二类时的特殊情况
指数簇分布的最大熵等价于其指数形式的最大似然。
二项式分布的最大熵解等价于二项式指数形式(sigmoid)的最大似然;
多项式分布的最大熵等价于多项式分布指数形式(softmax)的最大似然。