支持向量机
我们要像线性分类器一样找到一个超平面,不仅能够对数据点进行一个准确的分隔,同时我们希望所有的点尽量都能够远离我们的超平面。
一般来说,我们查找最近点和超平面之间的最大距离,上图中就是两边的Margin和最大。
超平面作为二分类器,如果wx+b>0, 判断类别y为1, 否则判定为-1。
衡量平面到数据集的距离远近的标准,需要函数间隔和几何间隔。
函数间隔
如果正确划分,函数间隔的值永远为正数。值越大,说明点离平面越远,分类的可靠程度更高
几何间隔
表示点到超平面的距离。
但是该间距是带符号的,所以为了取正值,我们可以通过乘以y获得。(f(x)为正时y为1,f(x)为负时y为-1)
下图为正值的几何间距。
SVM基本形式
我们可以发现,如果同时扩大w和b的相同倍数,既扩大函数间隔n倍,则分子扩大n倍,分母也同时扩大n倍,那么几何间距实际上不受影响。
我们通过同时缩放ω和b让距离超平面最近的那些样本点的函数间隔为1。那么最近点函数间隔为1,其余点函数间隔大于1.(为啥取1,是因为方便计算)
那么我们可以得出SVM的基本形式。
求解模型
根据上述约束,我们根据拉格朗日函数进行转换,变为以下问题:
通过计算上式的拉格朗日乘子:阿尔法a,我们可以得到最优解的 w 和 b。
低维映射到高维解决线性不可分问题
当超平面无法进行分割时,我们该怎么办?
一个合适的思路是将样本从原始空间映射到一个更高维的特征空间,使得样本在这个特征空间内线性可分。
比如上图,无法线性分割。如果原来的数据是 x ,我们给它增加一个维度 x2,从一维变成二维,数据就变成了这样
回到一维中,其实就是这样的一条曲线 x2 - x = 0:
核函数
我们通过映射函数讲上面问题转换为
由于样本 xi 和 xj 映射到特征空间之后的内积因为维数可能很高,所以比较难直接计算。为了避开这个障碍,我们设计了“核函数”(kernel function),这个函数使得 xi 和 xj 在特征空间的内积等于它们在原始样本空间中通过核函数 k(xi, xj) 计算的结果。
这样我们就避免了求映射函数,只通过一个核函数就可以在低维空间完成高维空间中才能完成的事!
如果特征维度为 n ,映射的阶数为 d,那我们可以得到的结果是: