探索SVM(支持向量机)之旅

冒泡~还是要努力坚持输出鸭!

SVM

SVM全称是Support Vector Machines,即支持向量机,是我们用于分类的一种算法。
接下来通过网上一个例子来诠释一下SVM:
首先你的面前出现一堆不同的颜色的球,你需要用跟棍子分开它,如下图情况:


但是当球数变多了,有一颗球站错了阵营

SVM的作用在于把这个用来分类的棍子放在一个合理的位置,达到两个分类个体在棍子的两边都有较大的间隙(如图所示)。

但是现实似乎不可能总是那么容易,一根棍子就解决了。当出现小球是混乱的情况下,是不存在完美的棍子去进行分类的,我们就考虑高级一点的解法了,这个时候你会怎么做呢?你可以翻转桌子,把球扔到空中。然后,你抓住一张纸,并在球之间滑动,也就是把平面化为立体的,而看起来像曲线进行了分类(如下图所示)

在这个例子里面

球→data
棍子 →classifier
最大间隙 →optimization
拍桌子 →kernelling
那张纸 →hyperplane
也就可以解释SVM具体是在做什么的了。
图片来源:(http://bytesizebio.net/2014/02/05/support-vector-machines-explained-well/)

接下来对几种情况做个分析:

A .线性可分

什么是线性可分呢?也就是上面例子中刚开始用棍子解决的小球的分类问题即我们要在一个二维平面上用仅用一条直线去分类。如下图,图a就是需要进行分类的粉球和篮球,图b和图c就行用直线实现了分类。

这个直线就是分界线,虽然图b和图c都实现了分类,但是效果还是有区别的。比如在上面的基础上多加了一颗粉球,图b和图c就出现不同的区别,图c已经实现不了正确的分类

所以我们接下来需要知道的如何求出哪一条直线更适合分类?

从直观上来说,就是分割的间隙越大越好,把两个类别的点分得越开越好。在SVM中,称为Maximum Marginal,是SVM的一个理论基础之一。

下图中被红色和蓝色的线圈出来的点就是所谓的支持向量(support vector)


下图中的Classifier Boundary就是f(x),红色和蓝色的线(plus plane与minus plane)就是support vector所在的面,红色、蓝色线之间的间隙就是我们要最大化的分类间的间隙。

M要怎么求解呢?根据高中所学的平行直线的距离公式(表示我也是忘了又查了一下....真的是要温故而知新鸭):d=|c1-c2|/√a²+b²得到

另外支持向量位于wx + b = 1与wx + b = -1的直线上,我们在前面乘上一个该点所属的类别y,就可以得到支持向量的表达式为:y(wx + b) = 1,这样就可以更简单的将支持向量表示出来了。 当支持向量确定下来的时候,分割函数就确定下来了,两个问题是等价的。接下来给出优化求解的表达式

加上限制条件(s.t→subject to)后为:

[说明: ||w||的意思是w的二范数,跟上面的M表达式的分母是一个意思,之前得到,M = 2 / ||w||,最大化这个式子等价于最小化||w||, 另外由于||w||是一个单调函数,我们可以对其加入平方,和前面的系数,这个式子是为了方便求导。]
接下来这个优化问题可以用拉格朗日乘子法去解,使用了KKT条件的理论,这里直接作出这个式子的拉格朗日目标函数

过程具体不做详解,只给出最后结果,详解可参考(https://www.cnblogs.com/LeftNotEasy/archive/2011/05/02/basic-of-svm.html
最后得到了线性可分问题的优化式子:

B.线性不可分

线性不可分就是你没法在二维平面用一条直线去很好地解决分类,就比如下图情况。


这个时候如果还是选择用直线去分,我们就要在上面的函数加上一个惩罚函数,去包容那些错的点。 我们可以为分错的点加上一点惩罚,对一个分错的点的惩罚函数就是这个点到其正确位置的距离

蓝色、红色的直线分别为支持向量所在的边界,绿色的线为决策函数,那些紫色的线表示分错的点到其相应的决策面的距离,这样我们可以在原函数上面加上一个惩罚函数,并且带上其限制条件为:

求解完之后得到:

具体过程可参考:(https://www.cnblogs.com/LeftNotEasy/archive/2011/05/02/basic-of-svm.html

其他参考资料(http://www.cnblogs.com/en-heng/p/5965438.html

Ending~多事之秋 要顺心鸭!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,236评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,867评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,715评论 0 340
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,899评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,895评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,733评论 1 283
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,085评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,722评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,025评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,696评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,816评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,447评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,057评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,009评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,254评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,204评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,561评论 2 343

推荐阅读更多精彩内容