线性回归代价函数
线性回归中代价函数如下:
如果逻辑回归中也是用上述Square Error作为代价函数,那么 是一个非凸函数,即存在很多局部最优解
PS:上述Square Error利用极大似然估计求解而得
Logistic Regression + Square Error
训练数据
,
:1 for class 1, 0 for class 2
可以看出对代价函数求导之后存在多个极值点
逻辑回归代价函数
推导过程
线性回归属于回归问题,输出是连续型变量。而逻辑回归属于分类问题,输出是离散型变量
逻辑回归的模型:
假定上述表达式是属于类 1 的概率,那么属于类 2的概率就等于 1减属于类1的概率(为了与上面一致,假设属样本属于class 1,则标签为1;、样本属于class 2,则标签为0),如下所述:
将上面两个式子整合为一个式子,即:
利用极大似然估计得:
为了方便计算,对上式取对数
求上式的极大值,引入因子 ,转化为求下式的极小值:
疑问:为什么要除以样本数m?
梯度下降过程
- 求偏导
- 更新过程
逻辑回归处理多分类问题——Softmax 回归
普通的逻辑回归只能针对二分类问题,要想实现多个类别的分类,需要进一步改进逻辑回顾,主要包括两种方法:
- 假如我们有
个类别,则建立
个普通的 Logistic 分类器。例如,属于类别1的样本标记为1,其他样本都标记为0,以此类推
- 修改逻辑回归的损失函数。修改后的损失函数不再笼统的只考虑二分类非1即0的损失,而是具体考虑每个样本表示的损失。这种方法叫做 softmax 回归,即逻辑回归的多分类版本
下面主要介绍上面介绍的第二种方法:
对于给定的测试输入 ,我们想用假设函数针对每一个类别j估算出概率值
。也就是说,我们想估计
的每一种分类结果出现的概率。因此,我们的假设函数将要输出一个
维的向量(向量元素的和为1)来表示这
) 个估计的概率值。 具体地说,我们的假设函数
形式如下:
其中对概率分布进行归一化,使得所有概率之和为1。上述函数也被称作 Softmax 函数
Softmax回归代价函数
在下面的公式中, 是示性函数,其取值规则为:
,
.
softmax的代价函数为:
可以看出上述公式是 logistic 回归代价函数的推广。logistic 回归代价函数可以改为:
梯度下降过程
将 分成两部分(容易计算):
其中:
and
因为 和
没有关系,所以可以提出来,并且
中
肯定等于某一个
然后分别对 和
对
求偏导,即可得到:
- 更新过程
当实现softmax回归算法时,通常会使用上述代价函数的改进版本,具体来说,就是和权重衰减一起使用。
Softmax回归模型参数化的特点
待补充,了解 Hessian矩阵
权重衰减
待补充
后两部分在最后一个链接中有讲到