线性可分支持向量机
特点
- 二分类问题
- 输入空间:欧式空间或离散集合
- 特征空间:欧式空间或希尔伯特空间
- 线性可分支持向量机、线性支持向量机:假设这两个空间的元素一一对应,并将输入空间中的输入映射为特征空间中的特征向量
理论模型
-
假设特征空间上的训练数据集:
-
线性可分支持向量机:给定线性可分训练数据集,通过间隔最大化或等价地求解相应的凸二次规划问题学习得到的分离超平面为
-
决策函数
函数间隔和几何间隔
-
点到分离超平面的远近
-
函数间隔
样本点的函数间隔
训练数据集的函数间隔
-
几何间隔
样本点的几何间隔
训练数据集的几何间隔
间隔最大化
-
最大间隔分类超平面
-
根据几何间隔和函数间隔的关系,问题转化为
-
因为函数间隔并不影响问题的最优解,所以我们令函数间隔为1.线性可分支持向量机学习可以转化为以下最优化问题
拉格朗日对偶
给每一个约束条件加上一个拉格朗日乘子,定义拉格朗日函数
这里我们把X看做常量,对
在满足约束的条件下,目标函数变为了
转化为对偶问题
*** 通过拉格朗日对偶重新定义一个无约束问题,这个无约束问题等价于原来的约束优化问题,从而将约束问题无约束化! ***
求解对偶问题的步骤
- 首先固定
最后,得到:
-
计算
-
求得分离超平面
-
分类决策函数
*** 分类决策函数只依赖于输入x和训练样本输入的内积,上式称为线性可分支持向量机的对偶形式 ***
线性支持向量机与软间隔最大化
引入松弛变量和惩罚参数
-
构造并求解约束最优化问题
-
计算
并选择α*,适合条件
计算:
非线性支持向量机与核函数
核技巧应用到支持向量机,其基本想法:
通过一个非线性变换将输入空间(欧氏空间R”或离散集合)对应于一个特征空间(希尔伯特空间),使得在输入空间中的超曲面模型对应于特征空间中的超平面模型(支持向量机)。分类问题的学习任务通过在特征空间中求解线性支持向量机就可以完成.
多项式核函数
高斯核
如果σ选得很大的话,高次特征上的权重实际上衰减得非常快,所以实际上(数值上近似一下)相当于一个低维的子空间;反过来,如果选得很小,则可以将任意的数据映射为线性可分——当然,这并不一定是好事,因为随之而来的可能是非常严重的过拟合问题。不过,总的来说,通过调控参数σ,高斯核实际上具有相当高的灵活性,也是使用最广泛的核函数之一
序列最小最优化算法SMO
-
解如下凸二次规划的对偶问题
-
启发式算法,基本思路
如果所有变量的解都满足此最优化问题的KKT条件,那么得到解
否则,选择两个变量,固定其它变量,针对这两个变量构建一个二次规划问题,称为子问题,可通过解析方法求解,提高了计算速度
子问题的两个变量:一个是违反KKT条件最严重的那个,另一个由约束条件自动确定
-
两个变量二次规划的求解过程
选择两个变量,其它固定
假设问题的初始可行解为
最优解
设α2未经剪辑时的最优解为
则有
最优化问题沿约束方向未经剪辑的解
剪辑后的解
得到α1的解