1. 几何距离vs函数距离
几何距离:点到直线的距离
函数距离:假设,意思是这个超平面能够将样本完美区分。那么可以认为
2. 几何距离和函数距离的关系
由于,那么可以认为:
几何距离就可以表示为:函数距离/ w的范
3. 超平面到点的距离 (最小)
在1和2 讨论了点到超平面的距离,现在换个方式,讨论下超平面到点的距离。
定义一个超平面到样本的间隔为超平面到样本的每个点的几何距离中的最小距离
与样本无关,提出来,则可表示为超平面到样本的最小距离是最小的函数距离
4. 找到一个超平面到点的距离最大---优化的目标
现在则需要找到一个超平面到样本的间隔最大。
由于一个超平面由2个参数决定(w,b)。。当w决定时,b表示截距。b在变化,那么这一类超平面都是平行的。一个正样本到平面的距离+一个负样本到平面的距离=一个常量
从这里可以看到,w固定,而b的不同,导致不同。当超平面向正样本方向挪动,那么到负样本的距离变大,到正样本的距离从原来的1/2 变小。这并不是最后的最优化的结果。因此,最优化的结果,应该是,超平面位于正负样本最小距离的正中间。
5. SVM
对优化目标进一步简化。对w和b同时进行放缩:w->kw;b->kb,带入原来的式子中发现:
1. 几何间隔并没有发生变化
2. 发生变化的是函数间隔,增长了k倍。
这时,同时缩放w和b,让距离超平面最近的那些样本的函数间隔为1。
一开始的假设是:所有的点都能分类正确,
然后加上了条件:理超平面最近的点的函数间距是1,
那么,除了最近的点,其他的点的距离大于1,
总结一下:对于能正确分类的超平面,对于给定的样本,那么超平面到每个样本的函数间距满足:
最后,SVM目标:
1. 在所有正确分类的超平面中,找一个这么一个超平面,他到样本点的间距最大,其中间距被定义为样本点到这个超平面的最小的距离
2. 放缩w和b后优化目标变,则可以将来简化问题。
, 条件是
由于max不好求,变换一下就最小值
st