机器学习笔记之—SVM

假定有一个训练集 ,它要么属于正例,要么属于负例。在分类问题当中,我们最基本的想法就是基于训练集D在样本空间中找到一个划分超平面,将不同的样本分开。这样的划分平面有很多,哪一个是最好的呢?


1.png

假设其中一个划分超平面是鲁棒性、泛化能力最好的,对训练样本局部扰动的“容忍性”也最好,这个划分超平面用如下方程式描述:


2.png

3.png

样本空间到这个超平面的距离d表示为:
3.png

,沿用一般求点到直线的距离公示,即可得出该距离公式。


4.png

对于这个超平面,上半区域是大于0的,都为正例;下半区域是小于0的,都为负例。所以有:
5.png

6.png

因为w,b等比缩放后,方程式依然不变
7.png

所以若将w,b等比缩放的话,就可得到以下公式:
8.png

再合并一下,就得到如下公式:


9.png

回到最原始的问题,怎样的超平面才是我们想要的超平面呢?回到样本空间,如果我们沿着超平面,一遇到正例、负例就作它的平行超平面,这些点就是离超平面最近的点。当这几个点离超平面距离越大,间隔越大,说明这个样本空间就划分的更好,对训练样本局本部扰动的“容忍”性就最好
8.png

那么这个长得像街道的街宽要怎么求呢?
9.png

由刚刚的公示,知道街边的点满足Yi* (w*x+b)=1。令街边的点的向量分别为X+,X-,那么街宽就为(X+-X-)在W法向量上的分量
10.png

11.png

于是,求最大街宽的问题,就转化为求最大 的问题。
原目标函数:
12.png

13.png

转化一下:
14.png

现在是如何求最优的w,b来来获得最大间隔

在数学中,求最小值可以用到拉格朗日定理


15.png

16.png

17.png

18.png

我们可以发现,原问题的对偶问题,现在是极大极小问题


19.png

对w,b分别求偏导可得:
20.png

再带入原公式:
21.png

现在转化为求最优α,求到了α,就求到了最优w,b,那么超平面就求到了,分类决策函数也就求到了。

之前提到的数据集都是线性可分的,如果数据集如下图该怎么办呢?


22.png

上面的数据并不是线性可分的,那么我们就可以利用核函数,来解决这个问题。


23.gif

这个方法的核心是将样本从原始空间映射到一个更高维的特征空间。
该特征空间中划分超平面所对应的模型可表示为:
24.png

其中ϕ(x)表示映射后的特征向量
像线性可分情况一样,也会有一下公式:


25.png

26.png

27.png

〖ϕ(x_i )〗^T ϕ(x_j)往往很难计算,于是可以设想一个核函数
28.png

数据集形成的M*M个核矩阵要是半正定的
29.png

现在已经有很多的核函数,比如多项式核、高斯核、SigMoid核等等,在实际应用中,往往依赖鲜艳领域知识/交叉验证等方案才能选择有效的核函数。没有更多先验信息,则使用高斯核函数。对于高斯核函数,我还没有进入更深一层次的研究。

在现实任务中,往往很难确定合适的核函数是的训练集在特征空间中线性可分。样本数据本身线性不可分;不一定分类完全正确的超平面就是最好的。
在图中会发现几个离群点,如果不考虑这些离群点,有可能划分的超平面就不一样。
考虑这些离群点有时候会出现过拟合的现象,
缓解该问题的一个办法就是允许支持向量机在样本上出错,因此,引入软间隔的概念。


30.png

增加一个松弛因子ξi≥0


31.png

目标函数就变为:

32.png

C越小,对错误越能容忍。C越大,对我们的训练越能达到一个更好的结果。防止过拟合的话,C尽量小
带松弛因子的SVM拉格朗日函数
33.png

34.png

35.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,014评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,796评论 3 386
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,484评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,830评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,946评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,114评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,182评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,927评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,369评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,678评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,832评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,533评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,166评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,885评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,128评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,659评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,738评论 2 351