对于二分类问题,逻辑回归的损失函数是:
首先介绍结论。求得一个梯度向量,即输入当前的向量 ,得到交叉熵损失函数在这一点的梯度向量:
我们知道逻辑回归的模型是:
其中 ,即
是一个关于
的线性函数,预测的是一个概率。我们的结论是:它关于要学习的参数
的梯度函数就是:
下面开始推导:
sigmoid 函数的导函数
首先证明:如果 ,那么
。
证明:
又因为
所以
(证毕)
对于逻辑回归问题的损失函数求对向量 的每个分量的导数的时候,会用到上面的这个结论。
逻辑回归问题的损失函数(注意我们这里使用的是交叉熵损失函数,不是极大似然估计)是:
其中 ,
,求
.
说明: 表示了第
条数据(
)的线性部分。其中我们送给逻辑回归模型的特征矩阵
形如:
这个矩阵的每一行
就表示一条数据,其中
对应了偏置。
这个向量形如:
我们把矩阵 和向量
相乘,我们首先分析他们的形状,
,
, 则
。
我们先计算 :
再计算 :
那么
向量化以后得到
下面我们介绍如何向量化。
向量化
我们记 , 因为
, 所以
。则
它的形状是 。
上面的列向量,每一个分量都形如两个向量数量积的形式,我们试图把它们写出来,然后根据它们的 shape 再做调整,这里的调整无非就是转置的操作而已。
继续分析: 的形状是
,
的形状是 。他们的乘积的形状是
。
(本节完)