《统计学习方法》笔记(二)感知机模型

前言

关于写作:

博主(暂且如此自称)是北京某高校的计算机系研究生在读,入行AI领域时间不久,正在努力进修。最近利用工作之余的时间正在学习李航博士的《统计学习方法》,一方面希望能够通过写作整理思路,另一方面,分享学习心得也希望可以和志同道合的小伙伴们共同探讨进步啦~

github传送门

GitHub - wyynevergiveup/Statistical-Learning-Method: 《统计学习方法》--李航 实现学习过程中的算法以加深理解

系列文章:

1.《统计学习方法》笔记(一) 统计学习及监督学习概论 - 简书

2.《统计学习方法》笔记(二)感知机模型 - 简书

3.《统计学习方法》笔记(三)K近邻法 - 简书

4.《统计学习方法》笔记(四)朴素贝叶斯法 - 简书

正文

2.1 综述

模型:感知机是二分类的线性分类模型,输入时实例的特征向量,输出是实例的类别{1,-1}。感知机对应于特征空间中将实例划分为正负两类的分离超平面,属于判别模型。

策略:感知机学习旨在求出将训练数据进行线性划分的分离超平面,为此导入基于误分类的损失函数,利用梯度下降法对损失函数进行极小化,求得感知机模型。

算法:感知机算法具有简单而易实现的特点,分为原始形式和对偶形式。

感知机是1957年由Rosenblatt提出,是神经网络与支持向量机的基础。

下面我们将从模型三要素:模型、策略、算法三个方面介绍感知机模型。

2.2 感知机模型

    本节我们将介绍什么是感知机模型,以及如何理解感知机模型。

    首先,我们在考虑任何问题时总是希望先将问题形式化,因此,给出感知机模型的形式化定义:

感知机的形式化定义

    感知机模型的假设空间是定义在特征空间上的所有线性分类模型,即函数集合\left\{ f | f(x) = w \cdot x + b \right\}

    那么,如何理解感知机模型呢?

感知机模型的几何解释

    以上解释个人感觉已经非常直观,下面我们以二维的情况进行具体分析。

    上图是一个二维坐标系,我们要找到一条直线将两类样本分开,因此可以假设直线方程为y = ax+b。将直线方程变形,改写为ax-y+b=0。将直线方程进一步改写成向量相乘的形式:

                                                (a,-1)\cdot (x,y)^T +b = 0

    令\vec{w}  = (a,-1)\vec{x} = (x,y),方程就改写为:

                                                    \vec{w} \cdot \vec{x} +b = 0

    即,我们的目的就是要找到合适的\vec{w} b,使得代入任意正样本时,\vec{w} \cdot \vec{x} +b >0(即位于直线的上方),反之,代入任意负样本时,\vec{w} \cdot \vec{x} +b < 0。其中\vec{w} 是直线的法向量,b是直线的截距。当输入的特征空间为3维时,要求的是三维空间中的一个平面,当特征空间维度更高时,已经无法找到一个几何名词去形容分离正负样本的”面“了,因而把它统称为”超平面“。

那我们要如何求得的\vec{w} b呢?

2.3 感知机策略

    首先需要明确的是,感知机模型只适用于可以线性可分的数据集。数据集线性可分性定义如下:

数据集线性可分性

    对于线性不可分的数据,单层perceptron将失效,比如,异或关系(XOR)。

单层perceptron为什么不能表示XOR

    为了确定模型的参数\vec{w} b,需要确定一个学习策略,即定义损失函数并将损失函数极小化。

    感知机模型常采用的损失函数为所有误分类点到超平面S的总距离。首先,特征空间内任意一点x_{0} 到超平面S的距离为:

                                                                \frac{1}{\vert \vert \vec{w}  \vert \vert } \vert \vec{w} \cdot \vec{x_0} +b \vert

    这里\vert \vert \vec{w}  \vert \vert \vec{w}  L_2范数。对于误分类样本,\vec{w} \cdot \vec{x_0} +by_i异号,且|y_i| = 1,因此,误分类点x_i到超平面S的距离为:

                                                                -\frac{1}{\vert \vert \vec{w}  \vert \vert } y_i\vert \vec{w} \cdot \vec{x_0} +b \vert

    这样,假设超平面S的误分类点集合为M,那么所有误分类点到超平面S的总距离为:

                                                                -\frac{1}{\vert \vert \vec{w}  \vert \vert } \sum_{x_i \in M} y_i\vert \vec{w} \cdot \vec{x_0} +b \vert

    而不考虑\frac{1}{\vert \vert \vec{w} \vert \vert},就得到了感知机学习的损失函数。

* 为什么可以不考虑\frac{1}{\vert \vert \vec{w} \vert \vert}

答:1.正系数不影响优化方向,对于线性可分数据集最后这个损失都是0; 分母用来归一化法向量,不归一化也一样用,感知机的解本身不唯一。总结来说,这个系数只会影响过程而不影响结果,去掉这个系数可以减少计算量。

感知机学习的损失函数

2.4 感知机算法

    感知机学习算法求解的其实是最优化问题,问题的形式化表述如下。

最优化问题形式化表述

2.4.1 感知机学习算法的原始形式

    这里提到一个”随机梯度下降“(SGD)的概念,实际在求解最优解的过程中使用的是随机梯度下降的方式,具体使用过程描述如下。

随机梯度下降
感知机学习算法的原始形式

2.4.2 感知机学习算法的对偶形式

感知机学习算法对偶形式的解释

具体的算法描述如下。

感知学习算法的对偶形式

Gram矩阵:由于对偶形式中训练实例仅以内积形式出现。为了方便,可以预先将训练集中实例间的内积计算出来并以矩阵的形式存储,这个矩阵就是Gram矩阵。


对偶形式有什么用?

在训练过程中,不再需要每次迭代都更新权重向量,而只需更新一个数字\alpha_i,同时在判断是否为误分类样本时,可以通过查表的方式得到简化计算,运算量为O(N) (原始形式为O(n))。但是,在实际实现过程中发现,计算Gram矩阵本身的开销也很大O(N*N*n)。

对偶感知机有用的场景必须满足以下下两个条件:

    当 N 较小,O(N) < O(n); (有过拟合的风险)

    实际所需迭代次数较多(难分类),计算Gram矩阵的开销可以忽略。

所以,个人认为对偶形式可用性其实并不好。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,451评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,172评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,782评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,709评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,733评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,578评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,320评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,241评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,686评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,878评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,992评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,715评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,336评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,912评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,040评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,173评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,947评论 2 355