SVM系列第三讲--函数间隔和几何间隔

上一节我们讲到，我们要像线性分类器一样找到一个超平面，不仅能够对数据点进行一个准确的分隔，同时我们希望所有的点尽量都能够远离我们的超平面，即所有点的f(x)值都是很大的正数或者是很小的负数。
但这里就会有一个疑问了，为什么f(x)值能够代表数据点远离超平面的程度呢？接下来，我们将讨论点到超平面的距离问题。

1、函数间隔

我们的函数间隔定义为：

函数间隔

可以看到，函数间隔其实就是类别标签乘上了f(x)的值，可以看到，该值永远是大于等于0的，正好符合了距离的概念，距离总不能是负的吧。那么为什么该值可以表示数据点到超平面的距离呢？我们不妨这样想，假设y=1,f(x)=1,其实就是将原来的分类超平面f(x) 向右平移了1个单位，而y=1,f(x)=2是将原来的分类超平面f(x) 向右平移了2个单位，所以f(x)值越大的点到分类超平面的距离当然越远，这就解释了我们之前提出的问题。

但是函数间隔存在一定的问题，上述定义的函数间隔虽然可以表示分类预测的正确性和确信度，但在选择分类超平面时，只有函数间隔还远远不够，因为如果成比例的改变 w 和 b，如将他们改变为 2w 和 2b，虽然此时超平面没有改变，但函数间隔的值 yf (x) 却变成了原来的 4 倍。

所以在实际中，我们定义点到超平面的距离时，采用的是几何间隔。