(16)监督学习-分类问题-SVM

    SVM又称为支持向量机。通过求解最大分类间隔(大间距分类器)实现分类、其损失函数为合页损失(均方误差加松弛变量)。

    支持向量是指离分割面最近的点。在决定分离超平面时,只有支持向量起作用,而其他实例点并不起作用。如果移动支持向量,将改变所求的解;但是如果在间隔边界以外移动其他实例点,甚至去掉这些点,则解是不会改变的。

(1)支持向量机与感知机模型的区别

        感知机和支持向量机都是通过求解分割超平面进行分类的。感知机通过五分类最小策略,求得分离超平面,但是有多个解。而线性可分支持向量机利用间隔最大化求解最优分离超平面,解是唯一的。

(2)支持向量机的推导

        支持向量机是求解最大分类间隔的分类器,其中支持向量是指离分割超平面最近的点。分割超平面可以用公式y= W^Tx+b ;其中,w表示超平面的法向量,b表示截距。空间中某一点到超平面的距离可以用\frac{|W^Tx+b |}{||W||} 表示,W^Tx+b 与类别标记y的符号是否一致可以表明分类是否正确。所以可以用用y(W^Tx+b )表示分类的正确性和确信度(离决策面越远,确信度越高),即函数间隔。对参数w加上约束,如||w|| = 1,可以使得间隔是确定的,得到几何间隔。(同时同比例增大w,b,超平面没有变,函数间隔却扩大了好多倍)。

        我们求解最优超平面就是使得几何间隔最大。设最大分类间隔为r,则对于样本中的所有点,都有\frac{y(W^Tx+b )}{||W||}>=r 。考虑到几何间隔和函数间隔的关系。最优化问题可表示为

max\frac{r}{||W||} ;{y(W^Tx+b )}>=r ;max\frac{r}{||W||} 表示几何间隔,r表示函数间隔。

        函数间隔的数值对该最优化为题没有影响,原因同上;可以假设函数间隔为1.则间隔大小为2/||w||。最优化问题转化为max\frac{1}{||W||} ;{y(W^Tx+b )}>=1max\frac{1}{||W||} 等价于min\frac{1}{2} ||W||^2 ,最终最优化问题为min\frac{1}{2} ||W||^2 ;{y(W^Tx+b )}>=1

        通过拉格朗日乘子法可以转化为对偶问题,具体方法就是对每个约束调价拉格朗日乘子\alpha _{i} \geq 0转化为对偶式后的优化函数为L(w,b,\alpha ) = \frac{1}{2} ||w||^2 +\sum_{i=1}^m \alpha _{i} (1-y_{i}(w^Tx_{i}+b  ) ),在损失函数的选择上,由于0-1损失函数数学性质不好,不容易求导,一般采用合页损失函数hinge(z) = max(0,1-z);此时的优化函数为L(w,b,\alpha ) = \frac{1}{2} ||w||^2 +\sum_{i=1}^m max (0,1-y_{i}(w^Tx_{i}+b  ) )

(3)软间隔和硬间隔

        当数据线性可分时,称硬间隔支持向量机;当近似线性可分时,称为软间隔支持向量机;当数据线性不可分时,使用核技巧,学习非线性支持向量机。

        软间隔分类相当于最优化问题引入了一个松弛变量(针对每个样本点)y_{i} (w*x_{i}+b )\geq 1-\xi _{i} .

(4)线性不可分问题

         核函数用于将数据从低纬度的输入空间映射到高纬度的特征空间(希尔伯特空间),核函数与映射函数的区别在于,核函数用简单的 运算代替了映射函数中众多复杂的计算。

        将线性不可分的低纬数据映射到线性可分到高纬空间。选择核函数的经验是一般情况下先选择简单的,比如先选择线性核,再选择非线性核,如果选择径向基函数,先选择\sigma (方差)比较大的核,值越大越接近线性。然后再逐渐减少。支持向量机对核函数的选择不敏感,只要参数合适,不同的核函数可以达到相同的效果。

        核函数的选择:对称函数(对称其实就是不变量,是指某特性不随数学转换而变化。),且其对于任意数据的核矩阵是半正定的。

        常见的核函数有:

            线性核;多项式核;径向基核(径向基函数是一个采用向量作为输入的函数,能够基于向量距离计算出一个标量,其需要设置的参数是到达率\sigma 。也是网格搜索。径向基是用来度量两个向量距离的函数。);高斯核。

(5)支持向量机的多分类问题

        SVM本身时2分类问题,再求解多分类问题时,可以看作多个2分类,1对多对分类。

        1-1 libsvm k类的数据集中,单独为每两类的样本设计SVM,进行分类。最终必须设计k(k-1)/2个分类器,最终用投票的方式进行选择。这也是libsvm采用的方法,但是当类别有1000个的时候;

            1- V 将某一类归为正类,其余全部是负类。该方法的最大缺陷是数据集的不平衡,因为某一类的实例往往只占一小部分。当然解决不平衡的问题可以进行降采样或者上采样,但是上采样中数据集过多重合,易导致过拟合,而降采样使得数据利用率不足,不能学习整个模型的特性。

    分类树方法—— SVM的二叉树组合

补充:

    原始问题转换为对偶问题需要满足KKT条件,KKT条件为:    KKT条件是非线性规划(nonlinear programming)有最佳解的必要条件。优化问题是凸优化的话,KKT条件就是极小值点(而且是全局极小)存在的充要条件。不是凸优化的话,KKT条件只是极小值点的必要条件,不是充分条件,KKT点是鞍点,是可能的极值点。也就是说,就算求得的满足KKT条件的点,也不一定是极小值点,只是说极小值点一定满足KKT条件。

    设A为实对称矩阵,若对每个非零实向量X。都有\dot{X} AX>0;则A为正定矩阵;若\dot{X} AX>=0;则为半正定矩阵;若\dot{X} AX<0,则为负定矩阵。

    正定矩阵的充要条件:A的所有顺序主子式都大于0(对应极小点);负定矩阵的充要条件为A的奇数阶顺序主子式小于0;偶数阶顺序主子式大于0(对应极大点);若A的所有顺序主子式小于0,则为不定矩阵,对应鞍点。

    LR与SVM的区别

    LR和SVM都是分类算法;如果不考虑核函数,LR和SVM都是线性分类算法,也就是说他们的分类决策面都是线性的;LR和SVM都是监督学习算法;LR和SVM都是判别模型。

    逻辑回归方法基于概率理论,假设样本为1的概率可以用sigmoid函数来表示,然后通过极大似然估计的方法估计出参数的值,支持向量机​基于几何间隔最大化原理;支持向量机只考虑局部的边界线附近的点,而逻辑回归考虑全局(远离的点对边界线的确定也起作用);SVM的损失函数就自带正则!!!(损失函数中的1/2||w||^2项),这就是为什么SVM是结构风险最小化算法的原因!!!而LR必须另外在损失函数上添加正则项!!!;

​     线性SVM依赖数据表达的距离测度,所以需要对数据先做normalization,LR不受其影响,LR需要做归一化,这样梯度下降的过程中,效率更高。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,128评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,316评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,737评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,283评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,384评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,458评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,467评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,251评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,688评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,980评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,155评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,818评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,492评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,142评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,382评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,020评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,044评论 2 352

推荐阅读更多精彩内容

  • 注:题中所指的『机器学习』不包括『深度学习』。本篇文章以理论推导为主,不涉及代码实现。 前些日子定下了未来三年左右...
    我偏笑_NSNirvana阅读 39,955评论 12 145
  • 接触机器学习时间也不短了, 趁国庆放假, 做一下深度整理. 1. 大纲 若想在企业胜任算法相关岗位知识, 除了掌握...
    婉妃阅读 3,402评论 2 92
  • 本章涉及到的知识点清单:1、决策面方程2、函数间隔和几何间隔3、不等式约束条件4、SVM最优化模型的数学描述(凸二...
    PrivateEye_zzy阅读 13,224评论 3 10
  • (1) 不知从何时起,兴许是一个多月前,爸爸从开始是偶尔和一些类似同学的人语音,到后来明目张胆,越来越频繁的和一些...
    美目如当年阅读 778评论 8 19
  • 前言 文章中内容多来自谷歌官方文档详戳,一些示例代码详戳GitHub,不喜请轻喷。 可绘制对象资源 可绘制对象资源...
    Code4Android阅读 9,334评论 0 12