用人话讲明白支持向量机SVM(上)

目录

  1. 什么是SVM
  2. 线性分类器的含义
  3. 怎么找线性分类器

1.什么是SVM

SVM支持向量机,号称机器学习的拦路虎。江湖传言,遇到了他,机器学习就会从入门到放弃。另一方面也就是说,只要搞定了SVM,后面的算法模型学起来都是小意思。

由于SVM较复杂,我分两篇来进行阐述,本篇仅介绍SVM的基本概念。

先看下官方定义:

支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以期获得最好的泛化能力。

VC 维,结构风险,有限样本,模型复杂性,最佳折衷,泛化能力,这一切……真是让人摸不着头脑……

行了,文绉绉的理论从来看不懂,我们还是从算法看起吧。

SVM一般用于解决二分类问题(也可以解决多分类和回归问题,本文暂不涉及),数学化语言概述如下:

样本数据:n个样本,p个输入(x_{1},...,x_{p}) ,1个输出y

第i个样本的输入X_{i}=(x_{i1},x_{i2},...,x_{ip})^{T}, i=1,2,...n

输出y:一般用1和-1作为两类样本的标签

训练样本集D

1

训练目的:以训练样本为研究对象,在样本的特征空间中找到一个超平面 ,将两类样本(+1和-1)有效分开,其中

然而,这些个公式……更是看的云里雾里……

没关系,抽象的数学语言难以理解,我们就从直观的图形和例子开始,抽丝剥茧一点点学。

2.线性分类器的含义

上一篇学线性回归时,是从一元线性回归讲起。一元,即一个自变量,再加上一个因变量,这种数据形式在二维坐标轴中就可以表示成(x,y)。(x,y)的数据形式可以通过画点、画线在二维平面上进行展示,方便初学者理解。

学习算法时通过图的形式来入门,最合适不过。那么,我们讲SVM也从平面上的点和线讲起不就好了。

我们用图看看线性分类器要解决什么样的问题。


2

假设有两类要区分的样本点,一类用黄色圆点代表,另一类用红色方形代表,中间这条直线就是一条能将两类样本完全分开的分类函数。

用前面的数学化语言描述一下这个图,就是:

样本数据:11个样本,2个输入 (x_{1},x_{2}) ,一个输出y

第i个样本的输入X_{i}=(x_{i1},x_{i2})^{T}, i=1,2,...11

输出y:用1(红色方形)和-1(黄色圆点)作为标签

训练样本集D

D=\begin{pmatrix} x_{11}, & x_{12} , & y_{1} \\x_{21} ,& x_{22} , & y_{2} \\... \\x_{n1} ,& x_{n2}, & y_{n} \end{pmatrix},n=11

训练目的:以训练样本为研究对象,找到一条直线 w_{1}x_{1}+w_{2}x_{2}+b=0,将两类样本有效分开。

这里我们引出线性可分的定义:如果一个线性函数能够将样本分开就称这些样本是线性可分的。线性函数在一维空间里,就是一个小小的点;在二维可视化图像中,是一条直直的线;在三维空间中,是一个平平的面;在更高维的空间中,是无法直观用图形展示的超平面。

回想一下线性回归,在一元线性回归中我们要找拟合一条直线,使得样本点(x,y)都落在直线附近;在二元线性回归中,要拟合一个平面,使得样本点(x1,x2,y)都落在该平面附近;在更高维的情况下,就是拟合超平面。

那么,线性分类(此处仅指二分类)呢?当样本点为(x,y)时(注意,和回归不同,由于y是分类标签,y的数字表示是只有属性含义,是没有真正的数值意义的,因此当只有一个自变量时,不是二维问题而是一维问题),要找到一个点wx+b=0,即x=-b/w这个点,使得该点左边的是一类,右边的是另一类。

当样本点为(x1,x2, y)时,要找到一条直线 w_{1}x_{1}+w_{2}x_{2}+b=0 ,将平面划分成两块,使得 w_{1}x_{1}+w_{2}x_{2}+b>0 的区域是y=1类的点, w_{1}x_{1}+w_{2}x_{2}+b<0的区域是y=-1类别的点。

更高维度以此类推,由于更高维度的的超平面要写成 w_{1}x_{1}+w_{2}x_{2}+...+w_{p}x_{p}+b=0 ,会有点麻烦,一般会用矩阵表达式代替,即上面的 W^{T}X+b=0

3

W^{T}X+b=0 这个式子中,X不是二维坐标系中的横轴,而是样本的向量表示。例如上面举的二维平面中的例子,假设绿色框内是的坐标是(3,1),则 X^{T}=(x_{1},x_{2})=(3,1) 。一般说向量都默认是列向量,因此以行向量形式来表示时,就加上转置。因此, W^{T}X+b=0W^{T} 是一组行向量,是未知参数,X是一组列向量,是已知的样本数据,可以将 w_{i} 理解为 x_{i} 的系数,行向量与列向量相乘得到一个1*1的矩阵,也就是一个实数。

3.怎么找线性分类器

我们还是先看只有两个自变量的情况下,怎么求解最佳的线性分割。


4

如图,理想状态下,平面中的两类点是完全线性可分的。这时问题来了,这样能把两类点分割的线有很多啊,哪条是最好的呢?

支持向量机中,对最好分类器的定义是:最大边界超平面即距两个类别的边界观测点最远的超平面。在二维情况下,就是找最宽的马路,在三维问题中,就是找最厚的木板。

5

显然,上图中左边的马路比右边的宽,马路的边界由1、2、3这三个点确定,而马路中间那条虚线,就是我们要的W^{T}X+b=0

可以看到,我们找马路时,只会考虑+1类中,离-1类近的点,还有-1类中,离+1类距离近的点,即图中的1、2、3和a、b、c这些点。其他距离对方远的样本点,我们做支持向量机这个模型时,是不考虑的。

由于最大边界超平面仅取决于两类别的边界点这些点被称为支持向量因此这种算法被命名为支持向量机。这个定义就比较好理解了吧?

未完待续……


本文首发于知乎https://zhuanlan.zhihu.com/p/73477179

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,544评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,430评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,764评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,193评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,216评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,182评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,063评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,917评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,329评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,543评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,722评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,425评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,019评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,671评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,825评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,729评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,614评论 2 353

推荐阅读更多精彩内容