一 线性模型特点
形式简单、易于建模、具有特别好的可解释性——权重大小就直接表示该属性的重要程度。
二 线性回归
1. 定义:给定数据集,其中 “线性回归”试图学习得一个线性模型以尽可能准确地预测实际输出标记。
2. 一元线性回归:输入属性的数目只有一个,权重w是一个数。即线性回归试图学得,使得。
3. 线性回归的主要任务在于如何确定w和b,这又决定于如何衡量f(x)与y之间的差别——均方误差是回归任务中最常用的性能度量(均方误差有非常好的几何意义,对应了常用的欧几里得距离,基于均方误差最小化来进行模型求解的方法称为“最小二乘法”),因此我们可试图让均方误差最小化(找到一条直线,使所有样本到直线上的欧氏距离之和最小),即:
4. 求解w和b使最小化的过程,称为线性回归模型的最小二乘“参数估计”。
5. 求解方法:将分别对w和b求导,并令倒数为零便可得到w和b最优解的闭式解。
由于;,在一阶倒数最小处必然取得极小值。令:
-->
6. 多元线性回归:样本由d个属性描述,多元回归试图学得,使得,使得。
7.广义线性回归:令线性模型预测值逼近y的衍生物,例如对数线性回归:,它试图让逼近y,形式上仍是线性回归,但实质上在求取输入空间到输出空间的非线性函数映射。
三 对数几率回归(逻辑斯蒂回归)
1. 若要进行分类,需要将分类任务的真实标记与线性回归模型的预测值联系起来——通过一个单调可微函数。
2. 考虑二分类任务,其输出标记,将线性回归产生的实值转换为0/1值,最理想的是“单位阶跃函数”,即若预测值z大于零就判为正例,小于零则判为反例,预测值为临界值零则可任意判别。但是该函数不连续--->选择一定程度上近似单位阶跃函数的对数几率函数——一种“Sigmoid函数”(形似S的函数)。定义如下:
---> (对数几率,用线性模型去逼近真实标记的对数几率)--->对数几率回归(logit regression/逻辑斯蒂回归),虽然名字是“回归”,但实际是一种分类学习方法。
3. 对数几率回归的优势:(1)直接对分类可能性进行建模,无需事先假设数据分布,可避免假设分布不准确所带来的问题;(2)它不是仅预测出“类别”,而是可得到近似概率预测,这对许多需利用概率辅助决策的任务很有用;(3)对数几率函数是任意阶可导的凸函数,有很好的数学性质,现有的许多数值优化算法都可直接用于求取最优解。
4. 模型参数估计:若将y视为类后验概率估计p(y=1 | x),则2中的式子可重写为:
--->
(二项逻辑斯蒂回归模型,对于输入x,比较两个条件概率值的大小,将实例x分到概率值较大的那一类)
于是可以通过“极大似然法”来估计w和b。给定数据集,对数几率回归模型最大化“对数似然”:即令每个样本属于真实标记的概率越大越好。
5. 对数似然函数详细推导:对于给定的训练数据集,其中对于单个样本,=1的概率是,=0的概率是,所以对于单个样本应该最大化,对于所有m个样本其似然函数为:,对数似然函数为
,根据逻辑斯蒂回归函数可得以下式子:
则对上式求极大值便能得到w和b得估计值,求极大值通常采用的方法是梯度下降法和拟牛顿法。
6. 多项逻辑斯蒂回归:多分类问题中,变量,那么多项逻辑斯蒂回归模型是:
二项逻辑斯蒂回归的参数估计方法也可以推广到多项逻辑斯蒂回归。
备注:《机器学习》第3章笔记,《统计学习方法》第6章。
四 感知机
1. 定义:假设输入空间(特征向量)是,输出空间是。输入表示实例的特征向量,对应于输入空间(特征空间)的点;输出表示实例的类别。由输入空间到输出空间的如下函数称为感知机:
,w为权值,b为偏置。
2. 感知机学习目标:求得一个能够将训练集正实例点和负实例点完全分开的分离超平面。
3. 感知机学习策略(损失函数):误分类点到超平面S的总距离最小。
1)输入空间中任一点到超平面S到距离:;
2)误分类点到超平面S的距离:;
3)所有M个误分类点到超平面S的总距离:;
4)不考虑常数项,感知机学习的损失函数(经验风险函数):。
5)感知机的学习策略:在假设空间中选取使该损失函数最小的模型参数。
4. 感知机学习算法:求解损失函数最优化问题-->随机梯度下降。首先,任意选取一个超平面,然后采用梯度下降法不断地极小化目标函数,极小化过程中不是一次使M中所有误分类点的梯度下降,而是一次随机选取一个误分类点使其梯度下降。感知机算法存在许多解,这些解既依赖于初值的选择,也依赖于迭代过程中误分类点的选择顺序。为了得到唯一的超平面,需要对分离超平面增加约束条件-->线性支持向量机。
备注:《统计学习方法》第2章笔记。