之前在机器学习实践系列3——二项逻辑回归中,描述了逻辑回归算法的基本概念和原理,并用Python结合实际案例讲解了如何应用二项逻辑回归来解决实际问题,最后讲解了如何对逻辑回归模型进行评估。
这次我们以这篇文章为基础,描述一下逻辑回归的理论模型和损失函数,以及推导过程。
上一篇我们讲到一般化的逻辑回归模型的预测函数如下:
一般我们讨论的是二项逻辑回归模型,它经过整合后的模型如下:
为了求解这个模型,即求出θ参数的值,我们需要引入似然函数。
似然函数是根据数据样本,来估计参数值,使得参数值和真实样本数据结合所得到的估计值接近于真实值。
似然函数在推断统计学(Statistical inference)中扮演重要角色,尤其是在参数估计方法中。在教科书中,似然常常被用作“概率”的同义词。但是在统计学中,二者有截然不同的用法。概率描述了已知参数时的随机变量的输出结果;似然则用来描述已知随机变量输出结果时,未知参数的可能取值。
给定输出x时,关于参数θ的似然函数L(θ|x)(在数值上)等于给定参数θ后变量X的概率:L(θ|x)=P(X=x|θ)。
极大似然估计,就是我们推断出θ参数,使得估计值最大可能的接近真实值,即推断出的θ参数所得到的数据是真实值的概率越大越好。
以上的逻辑回归模型,对应的似然函数如下:
这里的i代表样本,一共m个样本,因为我们所估计出来的θ参数,不能只满足部分样本,需要满足所有的样本。因此估计时,需要用到所有的样本来估计。
一般我们通过对数似然来求解极大似然,因为累乘算起来很难,但是经过对数转换,变成累加之后,计算就变得容易多了。对数似然函数如下:
这里我们用到了logAB = logA + logB的公式。
转换后的对数极大似然函数,我们也是需要求解它的最大值,可以应用梯度上升求使得L(θ)取值最大的θ值。但是一般我们都把求解极大值问题转换成求解极小值问题,所以这里我们给l(θ)乘以-1/m,转换成求最小值问题(至于为什么是1/m,因为方便后面求导之后直接约掉):
转换后得到的J(θ),就是我们的损失函数,根据梯度下降法的原理,我们通过求损失函数的偏导获得当前位置对应的梯度,即对θ求偏导,所得结果如下:
这里的i表示样本,j表示特征,即我们要对m个样本进行计算,但是更新θ参数的时候,我们是依次更新每一个θ参数的,所以这里的j表示第几个特征,我们就对应的更新第几个特征对应的θ参数。
求偏导的整个推导过程如下:
这里推导过程中,我们用到了一个公式,即如果:
那么对g(x)求偏导的结果为:
而在我们的推导公式中:
得出以上推导结果,我们就知道了如何对θ参数进行更新:
这里的α就是步长。
以上就是我们如何从逻辑回归的一般模型,逐渐推导出如何应用梯度下降法,求最小值。