李航. 统计学习方法[M]. 清华大学出版社, 2012.
第7章 支持向量机
7.1 线性可分支持向量机与软间隔最大化
感知机利用误分类最小的策略,求得分离超平面,这时的解有无穷多个;线性可分支持向量机利用间隔最大化求分离超平面,解是唯一的。
函数间隔的定义
对于给定的训练数据集T和超平面,定义超平面关于样本点的函数间隔为
定义超平面关于数据集T的函数间隔为超平面关于T中所有样本点的函数间隔之最小值,即
几何间隔的定义
对于给定的训练数据集T和超平面,定义超平面关于样本点的几何间隔为
定义超平面关于数据集T的几何间隔为超平面关于T中所有样本点的几何间隔之最小值,即
线性可分支持向量机学习的最优化问题:(令函数间隔)
求解上述最优化问题的解,即可得到最大间隔分离超平面和分类决策函数。
最大间隔分离超平面的存在唯一性
若训练数据集T线性可分,则可将训练数据集中的样本点完全正确分开的最大间隔分离超平面存在且唯一。
在线性可分的情况下,训练数据集的样本点中与分离超平面最近的样本点的实例称为支持向量(support vector)。支持向量是满足的点。
正例点与负例点中的支持向量所在的两个超平面之间的距离称为间隔(margin)。间隔依赖于分离超平面的法向量,等于。
线性可分支持向量机学习算法
输入:线性可分训练集,其中,,
输出:分离超平面和分类决策函数
(1) 构造并求解约束最优化问题
(2) 计算,并选择的一个正分量,计算
(3) 求得分离超平面和分类决策函数。
7.2 线性支持向量机与软间隔最大化
通常情况是,训练数据中有一些特异点(outlier),将这些特异点除去后,剩下大部分的样本点组合成的集合是线性可分的。
线性不可分的线性支持向量机的学习问题的凸二次规划(convex quadratic programming)问题(原始问题)为:
线性支持向量机
对于给定的线性不可分的训练数据集,通过求解上述凸二次规划问题,得到的分离超平面为以及相应的分类决策函数称为线性支持向量机。
对偶问题及其解
线性不可分凸二次规划问题的对偶问题是:
设是上述对偶问题的一个解,若存在的一个分量,则原始问题的解可按下式求得:
支持向量
在线性不可分的情况下,对偶问题的解中对应于的样本点的实例称为支持向量(软间隔的支持向量)。
线性支持向量机原始最优化问题等价于以下最优化问题
其中目标函数的第1项是经验损失或经验风险,函数称为合页损失函数(hinge loss function)。下标“+”相当于取正值的relu函数。合页损失函数对学习有更高的要求。