机器学习第六章支持向量机学习笔记

基本概念

划分超平面：通过一个线性方程来分类训练样本

支持向量：使划分超平面的划分结果正确的距离超平面最近的训练样例

间隔：两个异类支持向量到超平面的距离之和

SVM（支持向量机）基本型

如何为这个分类学习器找到一个超平面

按照一贯的先限定模型，再用训练样本和算法确定参数的方法，我们先为划分超平面限定一个模型

X是多个不同属性的值构成的向量

W是为每个属性赋予的权重值所构成的向量

b为位移项，决定了超平面与原点之间的距离

所以这个超平面可扩展为

在能将训练样本分类正确的前提下找到对训练样本局部扰动容忍性(最鲁棒)的超平面

我们需要运算一个条件极值

当这个超平面使各类训练样本集到它的距离之和最大时，该超平面作为阈值最合适，但为了使样本被正确分类我们还需要一个约束条件。

样本空间中任意点到超平面的距离可由平面内点到直线的距离公式推广而来

分母为向量w的模

我们人为规定被划分为正类的标志值为1，负类为-1

被划分正确的训练样本满足

(一个训练集线性可分）

当我们令

两个异类支持向量到超平面的距离和

所以该目标超平面满足条件

为了方便计算，等价于

（svm的基本型）

求解这个基本型可得到满足条件的参数w和b，即正确且唯一的模型

如何求解

二次规划问题：目标函数二次项，限制条件一次项

而svm的基本型很明显就是一个二次规划问题，我们采用拉格朗日乘子法求解

因此我们可以得到关系式

把关系式代入原拉格朗日函数

因此求解原问题就变成了求解对偶问题

而原模型可根据关系式变形为

由于原问题有不等式约束，所以其对偶问题需要增加KKT条件

显然，这个条件的解为

观察刚刚得到的线性模型表达式可知，最终模型仅与支持向量有关。

通用的二次规划算法不够高效，在这里我们

采用SMO：先固定两个乘子之外的所有参数，然后求这两个乘子上的极值.为什么是两个而不是一个，因为我们之前计算出当原函数值最大时所有乘子和其对应标志值的乘积之和为0，所以如果每次选择一个作为变量，则这个乘子可由其他已经被固定的乘子导出。

如何选取这两个参数

直观来看，KKT 条件违背的程度越大，则变量更新后可能导致的目标函数值减幅越大.也就是逼近解的速度越快，第二个变量应选择一个使目标函数值减小最快的变量，但由于比较各变量所对应的目标函数值减幅的复杂度过高，因此 SMO 采用了一个启发式:使选取的两变量所对应样本之间的间隔最大. 种直观的解释是，这样的两个变量有很大的差别，与对两个相似的变量进行更新相比，对它们进行更新会带给目标函数值更大的变化.

用约束条件