Task 05 西瓜书+南瓜书第6章：支持向量机+软间隔与支持向量回归

西瓜书+南瓜书第6章：支持向量机+软间隔与支持向量回归

1、间隔与支持向量

（1）分类学习的最基本思想就是：基于训练集D在样本空间中找到一个划分超平面，将不同类别的样本分开。

（2）在样本空间中，用线性方程来表示划分超平面，得到支持向量机（Support VectorMachine，简称SVM）的基本型。

2、对偶问题（dual problem）

（1）使用拉格朗日乘子法得到SVM的对偶问题

（2）SMO算法

3、核函数

（1）如果不存在可以正确划分两类样本的超平面，我们可将样本从原始空间映射到一个更高维的特征空间，使得样本在这个特征空间内线性可分；

（2）使用核函数(kernel function)进行等价转化；

（3）只要一个对称函数所对应的核矩阵是半正定的，它就能作为核函数使用；

（4）正则化可理解为一种“罚函数法”，即对不希望得到的结果施以惩罚，从而使得优化过程趋向于希望的目标。

4、软间隔与正则化

（1）现实中由于大多数样本不是线性可分的，所以引入软间隔（softmargin），也就是允许支持向量机在一些样本上出错。

（2）此时优化目标可写为替代函数，通常是凸函数且是l0/1的上界，常见的有hinge损失、指数损失、对率损失。

（3）支持向量机和对率回归的优化目标接近：

①对率回归的优势在于其输出具有自然的概率意义，即在给出预测标记的同时也给出了概率；而支持向量机的输出不具有概率意义。

②对率回归能直接用于多分类任务，支持向量机需要推广。

5、支持向量回归（Support Vector Regression）

（1）SVR假设：容忍f(x)与y之间最多有给定的偏差

（2）SVR问题形式化

6、核方法（kernel method）

（1）表示定理（representer theorem）

（2）现实中，常通过“核化”（即引入核函数）来将线性学习器拓展为非线性学习器。

（3）支持向量机是针对二分类任务设计的，其求解通常是借助于凸优化技术，核函数直接决定了支持向量机与核方法的最终性能，替代损失函数在机器学习中被广泛运用。