Support Vector Machine

[TOC]

Support Vector Machines 支持向量机

SVM 在有监督学习算法中

1.从直觉上理解什么是 SVM

要理解 SVM 就不得不提及 Margins (间隔) 这个概念,在这里会涉及对 margin 的直观理解以及对预测结果的置信程度(Confidence)度量。

让我们先回顾一下 Logistical Regression。在 LR 模型中,我们通过对条件概率 p(y=1|x;\theta) 建模得到h_\theta(x)=g(\theta^Tx). 对于每一个输入的实例 x , 当且仅当 h_\theta(x) \ge 0.5 或者等价于 \theta^Tx \ge 0时, 我们的模型会预测分类为 1 。

考虑训练集中的一个正类样本(y=1), 其 \theta^Tx 越大, h_\theta(x)=p(y=1|x;\theta) 也越大,那么对该样本其分类为 1 的 confidence degree也越大。这样的话,我们私底下就可以这么想了,如果对一个实例来说,\theta^Tx \gg 0 的话,那么我们可以很自信的将这个实例归为类别 1 。同理,如果对一个实例来说 \theta^Tx \ll 0 的话,那么我们可以信心十足的将这个实例归为类别 0。

所以,给定一个训练集(Training Set), 并找到一个能够拟合训练集数据的模型,这是我们的目标。

现在,让我们看一下另一种。在下图中,\times 代表着类别为正的训练实例,\bigcirc 代表着负训练实例,划分两类的直线便是决策边界(在 SVM 中被称为 分离超平面 ,其方程为 \theta_Tx=0) ,以及三个被标为 A、B、C 的点。

可以看到的是,类别为 1 的点 A 距离决策边界非常远。假如要我们对点A所属类别y做个预测的话,很显然我们会认为在这里y=1。相反地,类别同样为 1 的点 C 距离我们的决策边界非常的近。尽管这时候它处于决策边界的上方,即类别为 1 的区域,被正确的分类了。但是只要决策边界稍微变化一点点,就很容易被预测为错误的类别 0 了,对不对?

很显然相比于点 C ,我们对点 A 的预测更有信心。而点B正处在这两者之间,这样的话,我们也可以这样认为:对距离分离超平面越远的点,我们对它所属类别预测为真的信心也愈大。对吗?离得越近的点,反而会对预测的结果没有把握。

这里的 confidence 可以认为是实例点到分类超平面的距离,距离越大,confidence 越高。

分离超平面

综上所述,SVM 算法的目标在于找到这样一个决策边界:
1.能够正确划分训练实例的类别
2.所预测实例于决策边界的距离尽量最大

决策边界
超平面

2.Notation 符号表示

为了让解释方便,在这里引入一些关于分类的数学符号的标记。让我们从最简单的二元分类开始,考虑一个线性分类器,对特征 x 和 类别标记 y 进行分类。

在这里,我们使用 y \in \{-1, +1\} 表示类别的 Label 。(想一想,为什么不使用 y \in \{-1, +1\} ?) ,同时采用 w,b 来表示线性分类器的参数。(为什么不使用 vector \theta 表示 ?将 b 作为 w_0) 最后,我们得到了我们的的模型:

h_{w,b}(x) = g(w^Tx+b)

在这里,如果 z \ge 0 , 则 g(z) = 1; 否则 g(z) = -1。这里的 w,b 形式的表示使得我们可以将截距项 b 和 其他参数区别对待。因此, b 扮演了原先 \theta_0 的角色,而 w 则代表了 [\theta_1...\theta_n]^T

同时也注意到,上面我们对 g 的定义使得我们的分类器可以直接预测出结果 \{0,1\} , 而不需要像 Logistic Regression 那样需要经过一个中间步骤(先预测 y=1 的概率,然后转换为最后的 \{0,1\} 类别)。

我们的目标是确定 w,b

3.函数间隔 和 几何间隔 Functional and Geometric Margins

SVM 有三个关键概念: 间隔对偶核技巧

SVM 可以分为三种:Hard-Margin SVM(也叫做最大间隔分类),Soft-Margin SVM 和 Kernel SVM。在这里将会讨论 SVM中 的间隔(margins),并形式化定义和解释其中的函数间隔 和几何间隔。

给定一个训练实例 (x^{(i)}, y^{(i)}),我们定义该实例与分离超平面(w,b)的函数间隔为:

\hat{\gamma}^{(i)} = y^{(i)}(w^Tx+b).

这里我们先来理解一下这个公式,看看是否与我们之前形成的直觉理解一致:一般而言,一个点距离超平面的远近可以表示为分类预测的确信或准确程度。

从一定程度上来说,使用函数间隔来表示我们对预测 confidence 的度量并不是一个好的选择。因为函数间隔有一个不太好的性质。

问题在于,上述定义的函数间隔虽然可以表示分类预测的正确性和确信度,但在选择分类超平面时,只有函数间隔还远远不够,因为如果成比例的改变 w 和 b,如将他们改变为 2w 和 2b,虽然此时超平面没有改变,但函数间隔的值 f(x) 却变成了原来的2倍。其实,我们可以对法向量 w 加些Normalization 条件,使其表面上看起来规范化,如此,我们很快又将引出真正定义点到超平面的距离--几何间隔geometrical margin的概念(很快你将看到,几何间隔就是函数间隔除以个||w||,即yf(x) / ||w||)

这里的意思就是说,函数间隔使得我们难以确定 w 和 b,因为 2w 和 2b 有着更高的 confidence。

image.png

接下来让我们讨论一下 几何间隔 。先来看一下下面的图:

image.png

假设我们有了B点所在的
image

分割面。任何其他一点,比如A到该面的距离以
image
表示,假设B就是A在分割面上的投影。我们知道向量BA的方向是
image
(分割面的梯度),单位向量是
image

。A点是
image
,所以B点是x=
image
(利用初中的几何知识),带入
image
得,
image

进一步得到

image
image

实际上就是点到平面距离。

4.最大间隔分类器

回想前面我们提到我们的目标是寻找一个超平面,使得离超平面比较近的点能有更大的间距。也就是我们不考虑所有的点都必须远离超平面,我们关心求得的超平面能够让所有点中离它最近的点具有最大间距。形象的说,我们将上面的图看作是一张纸,我们要找一条折线,按照这条折线折叠后,离折线最近的点的间距比其他折线都要大。形式化表示为:

优化问题。

SVM三宝: 间隔对偶核技巧

核技巧能够让 SVM 从普通的欧式空间(特征空间),映射到高维空间,然后可以实现一定的非线性分类。

SVM 可以分为以下三种:
Hard-Margin SVM, 也叫做最大间隔分类。
Soft-Margin SVM
Kernel SVM

首先我们来了解一下第一种,即 Hard-Margin SVM。

SVM 最初提出来是为了解决二分类问题。

超平面

f(w) = sign(w^Tx+b) 判别模型,和概率没有关系。

最大间隔(Max Margin)
max \space margin(w, b) \\ s.t. \space y_i(w^Tx_i+b)>0 . For \space i = 1,2,3,...N

点到直线的距离 distance
N 个样本点,就是 N 个 distance,margin 就等于 从 N 个样本点中找到最小的那个 distance

超平面的线性方程

w^Tx + b = 0

w = (w_1; w_2; ... ; w_d) 为 法向量 ,决定超平面的方向。
b为位移项,决定超平面与原点的距离。

任意点到超平面 w^Tx + b = 0 的距离:

r = |w^Tx+b| / ||w||

将类别分为 +1 和 -1 两类,超平面可以正确的分类,意味着:

超平面
image.png
image.png
image.png

参考文献

(July - 支持向量机通俗导论: 理解SVM的三层境界)[https://blog.csdn.net/v_JULY_v/article/details/7624837#commentBox]

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,558评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,002评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,036评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,024评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,144评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,255评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,295评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,068评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,478评论 1 305
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,789评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,965评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,649评论 4 336
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,267评论 3 318
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,982评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,223评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,800评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,847评论 2 351

推荐阅读更多精彩内容