统计学习方法读书笔记——第七章支持向量机

支持向量机(support vector machines, SVM)是一种二类分类模型，它的基本模型是定义在特征空间上的间隔最大的线性分类器。
间隔最大使它有别于感知机。
支持向量机还包括核技巧，这使它称为实质上的非线性分类器。

支持向量机学习方法包含构建由简至繁的模型：线性可分支持向量机、线性支持向量机、及非线性支持向量机。
训练数据线性可分时：硬间隔最大化，硬间隔支持向量机
近似线性可分时：软间隔最大化，软间隔支持向量机
线性不可分时：核技巧，非线性支持向量机

核技巧：

7.1 线性可分支持向量机与硬间隔最大化

7.1.1 线性可分支持向量机

线性与非线性的区别：非线性支持向量机利用一个从输入空间到特征空间的非线性映射

训练数据：

训练目标：
找到一个分离超平面，将实例分到不同的类，且间隔最大化。

线性可分支持向量机的定义：

7.1.2 函数间隔和几何间隔

一般来说，一个点距离分离超平面的远近可以表示为分类预测的确信成都。

定义函数间隔:

函数间隔可以表示分类预测的正确性及确信度，但是选择分离超平面时，只有函数间隔还不够，需要规范化，如 $||\omega||=1$ ，使得间隔是确定的。
这时函数间隔成为几何间隔。

几何间隔的定义：

超平面关于样本点的几何间隔一般是实例点到超平面的带符号的距离。

函数间隔和几何间隔的关系：

7.1.3 间隔最大化

支持向量机学习的基本思想：求解能够正确划分训练数据集并且几何间隔最大的分离超平面。线性可分=>硬间隔最大化。

间隔最大化的直观解释：以充分大的确信度对训练数据进行分类。不仅将正负实例点分开，而且对最难分的实例点（离超平面最近的点）也有足够大的确信度将它们分开。这样得到的超平面应该具有较好的泛化能力。

最大间隔分离超平面

函数间隔 $\hat \gamma$ 的取值并不影响最优化问题的解。这样就可以取 $\hat \gamma=1$ ，于是得到下面的线性可分支持向量机的最优化问题

凸优化问题的定义：

最大间隔法：

最大间隔分离超平面的存在唯一性
线性可分训练数据集的最大间隔分离超平面是存在且唯一的。
证明：
(1) 存在性：

(2) 唯一性：
支持向量和间隔边界

支持向量的个数一般很少，所以支持向量机由很少的“重要的”训练样本确定。

7.1.4 学习的对偶算法

应用拉格朗日对偶性，通过求解对偶问题，得到原始问题的最优解。
引入对偶算法的优点：
1.对偶问题往往更容易求解
2.自然引入核函数，进而推广到非线性分类问题

(1) 求 $\mathop{min}\limits_{\omega,b}L(\omega,b,\alpha)$

(2) 求

\mathop{min}\limits_{\omega,b}L(\omega,b,\alpha)

对

\alpha

的极大，即是对偶问题

对于线性可分训练数据集，可以由 $\alpha^*$ 求得原始最优化问题对 $(\omega,b)$ 的解，有如下定理：

线性可分支持向量机的对偶学习算法，先求解对偶问题的解 $\alpha^*$ ，再求得原始问题的解 $\omega^*,b^*$ ，是线性可分支持向量机学习的基本算法：

支持向量：

7.2 线性支持向量机与软间隔最大化

7.2.1 线性支持向量机

线性可分问题的支持向量机学习方法对线性不可分的训练数据是不适用的。通常情况，训练数据中有一些特异点，这些特异点去除后，剩下大部分的样本点组成的集合是线性可分的。这就需要修改硬间隔最大化，使其成为软间隔最大化。

引进松弛变量 $\xi_i$

有了上面的思路，可以和训练数据集线性可分时一样来考虑训练数据集线性不可分时的线性支持向量机学习问题。它称为软间隔最大化。

可以证明 $\omega$ 的解是唯一的，但 $b$ 的解不唯一， $b$ 的解存在于一个区间

线性支持向量机：

线性支持向量机的定义：

7.2.2 学习的对偶算法

就定理形式叙述原始问题的最优解和对偶问题的最优解的关系：

综合前面的结果，有下面的算法：
线性支持向量机学习算法：

7.2.3 支持向量

7.2.4 合页损失函数

合页损失函数(hinge loss function)

定理：

合页损失函数的图像：

合页损失函数是0-1损失函数的上界，因为0-1损失函数不是连续可导的，直接优化比较困难，可以认为线性支持向量机是优化由0-1损失函数的上界（合页损失函数）构成的目标函数。
这时的上界损失函数又称为代理损失函数

7.3 非线性支持向量机与核函数

有时分类问题是非线性的，这时可以使用非线性支持向量机，其主要特点是利用核技巧(kernel trick)

7.3.1 核技巧

非线性分类问题

上面的例子说明：用线性分类方法求解非线性分类问题分为两步：1. 首先使用一个变换将原空间的数据映射到新空间；2.然后在新空间里用线性分类学习方法从训练数据中学习分类模型。
核技巧就属于这样的方法，基本思想：
核函数的定义

核技巧的想法是：在学习与预测中只定义核函数 $K(x,z)$ ，而不显式地定义映射函数 $\phi$ 。

核函数举例：
核技巧在支持向量机中的应用
注意到在线性支持向量机的对偶问题中，无论是目标函数还是决策函数（分离超平面）都只涉及输入实例与实例之间的内积。

7.3.2 正定核

不用构造映射能否直接判断一个给定的函数 $K(x,z)$ 是不是核函数？
本节叙述正定核的充要条件。

定义映射，构成向量空间 $S$
在 $S$ 上定义内积，使其成为内积空间
将内积空间 $S$ 完备化为希尔伯特空间
正定核的充要条件

定义7.7正定核的等价定义：

7.3.3 常用的核函数

多项式核函数
高斯核函数
字符串核函数

7.3.4 非线性支持向量分类机

如上所述，利用核技巧，可以将线性分类的学习方法应用到非线性分类问题中，只需将线性支持向量机对偶形式中的内积换成核函数。

下面叙述非线性支持向量机学习算法：

7.4 序列最小最优化算法

支持向量机的学习问题可以形式化为求解凸二次规划问题，这样的凸二次规划问题具有全局最优解。但是当训练样本容量很大时，这些算法往往变得非常低效。所以如何高效地实现支持向量机学习就成为一个重要的问题。目前已提出很多快速实现方法，本节讲述序列最小最优化(sequential minimal optimization, SMO)算法。

SMO算法是一种启发式算法，其基本思路是：如果所有变量的解都满足此最优化问题的KKT条件，那么这个最优化问题的解就得到了。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 215,294评论 6赞 497
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 91,780评论 3赞 391
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 161,001评论 0赞 351
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 57,593评论 1赞 289
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 66,687评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 50,679评论 1赞 294
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,667评论 3赞 415
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,426评论 0赞 270
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,872评论 1赞 307
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,180评论 2赞 331
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,346评论 1赞 345
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,019评论 5赞 340
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,658评论 3赞 323
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,268评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,495评论 1赞 268
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,275评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,207评论 2赞 352

统计学习方法读书笔记——第七章 支持向量机