机器学习10 支持向量机SVM

12 支持向量机

内容:大边界的直观理解,大边界分类背后的数学,核函数,使用支持向量机

12.2 大边界的直观理解

  1. 大间距
    用一个具体的例子来说,考察这样的有正样本和负样本的数据集,我们可以画出很多个决策边界将正负样本完全分开。像下面这样,三条线都符合:


    但是我们会发现好像黑色的这条线会更加稳定,为什么呢?这条黑线有更大的距离——间距
    我们使用支持向量机,往往会得到黑线所代表的结果。大间距是支持向量机具有鲁棒性(更稳定更强壮)的原因。支持向量机有时也被称为大间距分类器
    然而为什么会产生这个结果呢?支持向量机为什么会努力将正负样本用最大间距分开呢?

  2. 支持向量机特点

    首先再理解一下支持向量机的特点:

    (1) 关于z和y
    左边是关于z的代价函数cost1(z),此函数用于正样本。意思就是如果我有一个正样本,我会希望𝜃𝑇𝑥>=1(即z>=1)。事实上,如果你有一个正样本𝑦 = 1,则其实我们仅仅要求𝜃𝑇𝑥>= 0,就能将该样本恰当分出,但是,支持向量机的要求更高,不仅仅要能正确分开输入的样本,即不仅仅要求𝜃𝑇𝑥>0,我们需要的是比 0 值大很多,比如大于等于 1,我也想这个比 0 小很多,比如我希望它小于等于-1,这就相当于在支持向量机中嵌入了一个额外的安全因子,或者说安全的间距因子。
    右边是关于z的代价函数cost0(z),此函数用于负样本,同理。
    (2) 关于C
    如果 𝐶非常大,则最小化代价函数的时候,我们将会很希望找到一个使第一项为 0 的最优解,所以这将遵从这样的约束:如果训练样本y = 1,我们呢想令第一项为0,那么就找到一个𝜃,使得𝜃𝑇𝑥 >= 1;训练样本y = 0时同理。
    当你求解出𝜃以后,也将得出决策边界(𝜃就是那些参数,有了参数自然也就知道边界,)

  3. 不准确的划分
    支持向量机现在要比这个大间距分类器所体现得更成熟,尤其是当你使用大间距分类器的时候,你的学习算法会受异常点(outlier) 的影响。比如我们加入一个额外的正样本(左下角的红×)。

    ,如果你加了这个样本,为了将样本用最大间距分开,也许我最终会得到一条类粉色线这样的边界。这种情况在什么条件下发生?
    如果正则化参数C 设置的非常大,支持向量机会选择这天粉线;将 C 设置的不太大,则你最终会得到这条黑线。
    为什么呢?回想我们如何设置出C,它的作用类似于1/𝜆,𝜆是我们之前使用过的正则化参数。因此:
    𝐶 较大时,相当于 𝜆 较小,可能会导致过拟合,高方差。
    𝐶 较小时,相当于 𝜆 较大,可能会导致低拟合,高偏差。

12.3 大边界分类背后的数学

  1. 向量内积


    𝑝是𝑣投影到向量𝑢上的长度(有正负之分),因此可以将𝑢𝑇𝑣 = 𝑝 ⬝ ∥𝑢∥ = 𝑢1 × 𝑣1 + 𝑢2 × 𝑣2

  2. 支持向量机中的目标函数
    (1)目标函数:
    下面就是支持向量机中的目标函数,在不同的y值下对自变量有不同的约束

    因此支持向量机做的全部事情,就是极小化参数向量𝜃范数的平方,或者说长度的平方
    当然你可以将其写作𝜃0,𝜃1,𝜃2,如果𝜃0 = 0,那就是𝜃1,𝜃2的长度。在这里我将忽略𝜃0,这样来写𝜃的范数,它仅仅和𝜃1,𝜃2有关。但是,数学上不管你是否包含,其实并没有差别, 因此在我们接下来的推导中去掉𝜃0不会有影响。
    (2)𝜃𝑇𝑥:

  3. 大间距如何产生
    假设我们有这样的例子


    例子

    选择绿线1作为决策边界

我们选择参数𝜃,可以看到参数向量𝜃事实上是和决策界是 90 度正交的,因此这个绿色的决策界对应着一个参数向量𝜃这个方向,顺便提一句𝜃0 = 0的简化仅仅意味着决策界必须通过原点(0,0)。
任选两个样本点x1,x2。根据上图我发现投影p很小,所以为了符合约束条件我们需要将参数的范数设置的很大。但是我们的目标函数是希望找到一个参数𝜃,它的范数是小的,所以这不符合条件。再看下面的情况:


注意右图

支持向量机可以使参数𝜃的范数变小很多。

以上就是为什么支持向量机最终会找到大间距分类器的原因。因为它试图极大化这些𝑝(𝑖)的范数,它们是训练样本到决策边界的距离。最后一点,我们的推导自始至终使用了这个简化假设,就是参数𝜃0 = 0。 事实上这只是代表截距,并不会影响投影的长短以及角度。

12.4 核函数

核函数的作用:计算出新的特征
  1. 高斯核函数
    地标:给定一个训练实例𝑥 ,我们利用𝑥 的各个特征与我们预先选定的地标(landmarks)𝑙(1),𝑙(2),𝑙(3)的近似程度来选取新的特征𝑓1,𝑓2,𝑓3。 例如:
    其中:
    为实例𝑥中所有特征与地标𝑙(1)之间的距离的和。
    sim()函数:高斯核函数
    地标的作用:如果一个训练实例𝑥与地标𝐿之间的距离近似于 0,则新特征 𝑓近似于1,如果训练实例𝑥与地标𝐿之间距离较远,则𝑓近似于0
    𝜎:决定随着𝑥的改变𝑓值改变的速率
  2. 如何选择地标

    根据训练集的数量选择地标的数量。
    则特征向量为

    下面我们将核函数运用到支持向量机中,修改我们的支持向量机假设为:
  3. 线性核函数
    即支持向量机不使用核函数。当我们不采用非常复杂的函数,或者我们的训练集特征非常多而实例非常少的时候,可以用这种不带核函数的支持向量机。
  4. 参数𝐶和𝜎
    𝐶 = 1/𝜆
    𝐶 较大时,相当于𝜆较小,可能会导致过拟合,高方差;
    𝐶 较小时,相当于𝜆较大,可能会导致低拟合,高偏差;
    𝜎较大时,可能会导致低方差,高偏差;
    𝜎较小时,可能会导致低偏差,高方差。

12.6 使用支持向量机

  1. 核函数的选择
    高斯核函数
    多项式核函数(Polynomial Kernel)
    字符串核函数(String kernel)
    卡方核函数( chi-square kernel)
    直方图交集核函数(histogram intersection kernel)
    这些核函数的目标也都是根据训练集和地标之间的距离来构建,这些核函数需要满足 Mercer's 定理,才能被支持向量机的优化软件正确处理。
  2. 多分类问题
    如果一共有𝑘个类,则我们需要𝑘个模型,以及𝑘个参数向量𝜃。我们同样也可以训练𝑘个支持向量机来解决多类分类问题。
  3. 使用准则
    (1)如果相较于𝑚而言,𝑛要大许多,即训练集数据量不够支持我们训练一个复杂的非线性模型,我们选用逻辑回归模型或者不带核函数的支持向量机。
    (2)如果𝑛较小,而且𝑚大小中等,例如𝑛在 1-1000 之间,而𝑚在 10-10000 之间,使用高斯核函数的支持向量机。
    (3)如果𝑛较小,而𝑚较大,例如𝑛在 1-1000 之间,而𝑚大于 50000,则使用支持向量机会非常慢,解决方案是创造、增加更多的特征,然后使用逻辑回归或不带核函数的支持向量机。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,470评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,393评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,577评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,176评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,189评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,155评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,041评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,903评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,319评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,539评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,703评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,417评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,013评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,664评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,818评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,711评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,601评论 2 353

推荐阅读更多精彩内容