前言:长的文字使人畏惧,《统计学习方法》这章真的很长
硬间隔最大化
本质
如果数据集线性可分
就是要找到一个超平面,使数据点可分,并且最小几何距离最大
用数学表示如下
其中 表示最小几何距离,所以这个公式的意思就是,要找到一个超平面,使数据点可分,并且最小几何距离最大
引入几何间隔和函数间隔
对于任意一个超平面以及点。都有一个几何间隔。表示为
这就是一个计算点到平面的距离公式。
为了方便,引入函数间隔。
公式推导
写出几何间隔与函数间隔之间的关系,得到
将 带入最上面的公式,得到
- 可以取 最终得到
- 推导 为啥可以取 1
如果数据线性可分,那么一定存在这样一个所描述的几何间隔
由几何间隔和函数间隔的关系得出
由于最后算出的 可以调节比例系数,所以一定存在一个使得
软间隔最大化
讲完硬间隔最大化,现在进入软间隔最大化。
数据集不是线性可分的,但是去掉一些点以后是线性可分的。在这个情况下使用硬间隔最大化,是不行的。因为根本就不能达到必要条件。
软间隔最大化,其实只是在硬件隔最大化的基础上改变了一点点
被称作松弛变量,相当于容忍了一部分线性不可分的现象。
此时,目标函数变为
所以最后变成了
代码
参考
- 《统计学习方法》