(结合西瓜书和统计学习方法两本书关于逻辑回归的介绍的笔记)
1. 线性回归
线性模型:, x为样本向量,每个样本有d个属性。
简写成向量形式:.
目标:试图学到一个这样的线性模型以尽可能准确地预测真实输出值。
学习模型的过程就是学习模型的参数,w和b是怎么确定的呢?
回归问题使用平方误差/均方误差指标,通过使平方误差最小化,求得参数值。
如果特征和输出值之间存在非线性关系的情况呢,我们需要一个映射函数:
2. 对数线性回归
如果样本对应的输出值是在指数尺度上变化的,则可以将输出值的对数作为线性模型逼近的目标:
这就是对数线性回归。
一般的,可以得到广义线性模型:
3. 对数几率回归
考虑二分类任务,需要找一个映射函数将真实标记和线性回归的预测值联系起来。
具体的,我们需要将线性回归模型预测值这个实值与输出标记映射起来,考虑到连续可微,我们使用【对数几率函数】:
,
将输入(线性回归模型的预测值)代入,得到【对数几率回归】(logistic regression)模型(也可翻译成逻辑回归):
,
对数几率名字由来:
变形得,.
其中为正例的可能性/反例的可能性,成为几率,
对几率取对数得到对数几率(logit):
模型的优点:
无需事先假设数据分布;
不仅可以得到类别,还可以得到近似的概率值;
对数几率函数式任意阶可导的凸函数,可直接求最优解。
4. 对数几率回归模型参数
将正例概率和反例概率代入 y 和 1-y ,可以得到表达式:
, ,
得到正反例概率之后,我们可以用极大似然法估计参数 w 和 b :
假设令, ,则似然函数为:
, (因为离散变量的联合概率就是每个取值概率相乘),
对数似然函数为:
对对数似然函数求最大值,即可得到参数w的估计值。
通常采用的办法是 梯度下降法及拟牛顿法。
5. 多分类
假设共有K类:
, ,