[强基计划] 统计学习方法之感知机Perceptron

感知机


2.1 感知机模型

​ 感知机模型属于一种判别模型,感知机的定义如下:

(定义2.1)感知机:假设输入空间(特征空间)为X\subseteq R^n,输出空间为y={+1,-1},那么函数:
f(x)=sign(w\cdot x+b) \tag {2.1}
​ 被称为感知机,可见感知机的本质就是一个符号化函数,其中:
sign(x)=\left\{ \begin{array} +1, x\ge 0,\\ -1, x<0. \end{array} \right. \tag {2.2}
​ 显然,感知机是一种线性分类器。

2.2 数据集的线性可分特性,感知器学习方法

(定义2.2)数据集的线性可分性:对一个数据集 T=\{(x_1,y_1),(x_2,y_2),(x_N,y_N)\},其中,x_i \in X \subseteq R^ny_i \in \{+1,-1\}, 如果存在某一个超平面S,使w\cdot x+b=0能够把数据的正实例与负实例完全正确划分,那么我们就说这个数据集是线性可分的。

​ 在数据集可以被线性区分的前提下,我们开始设计感知机的损失函数。一个非常直观的想法是用区分错误的点来作为感知机损失函数的依据。如果使用区分错误的点的总数作为损失函数的话,的确可以优化感知机,但是无法微分,很难快速进行优化。目前的感知机采用误分类的点到超平面S的距离作为损失函数,它的表达式很容易推导,首先,对输入的样本中任意一点x_0 \in R^n,根据距离公式得:
distance = \frac{1}{||w||}|w\cdot x_0+b| \tag{2.3}
​ 也就是它到超平面的距离等于它代入平面方程计算出的绝对值,除以超平面法向量的内积(L_2范数 norms)。对于误分类的数据(x_i,y_i)来说,如果它是+,错误的分到了-,那么有
-y_i(w\cdot x_i+b)→-\times+\times->0 \tag{2.4}
​ 同理,上式对-分为+也有效,之所以求这个是为了说明绝对值的微分情况,于是对点x_i,(2.3)式脱绝对值有:
distance = -\frac{1}{||w||}(w\cdot x_i+b)
​ 误分类的点(集合M)的总距离就为
distance_{all}=-\frac{1}{||w||}\sum_{x_i\in M}y_i(w\cdot x_i+b) \tag{2.5}
​ 由于-\frac{1}{||w||}为常数,所以在偏导数运算中可以忽略。故有最终的Loss 函数:
L(w,b)=-\sum_{x_i \in M}y_i(w\cdot x_i+b) \tag {2.6}
​ 其实损失函数也可以为负数,不过优化方向就有点诡异(不断增大),这样还不如设定为正方便。

2.3 感知机的学习算法

​ 感知机的学习算法其实就是要达成一个目标,使
\min\limits_{w,b} L(w,b)=-\sum_{x_i \in M} y_i(w\cdot x+b) \tag{2.7}
​ 通用的感知器学习算法是误分类驱动的(误分类调整损失函数),并使用随机梯度下降方法(stochastic gradient descent)。算法初始条件是超平面w_0,b_0。对于固定的误分类点集合M, 损失函数的梯度为(对上面的w,b进行微分):
\triangledown_w L(w,b)= -\sum_{x_i\in M} y_ix_i \tag{2.8}

\triangledown_b L(w,b)=-\sum_{x_i \in M} y_i \tag {2.9}

​ 之所以叫随机梯度下降算法,是因为它每次随机选取一个误分类点(x_i,y_i),对w,b进行更新,如下:
w \leftarrow w+\eta y_i x_i \tag{2.10}

b\leftarrow b +\eta y_i \tag {2.11}

​ 你可能会疑惑\eta是什么,它是学习率(learning rate),调整内部参数更新的速度,属于超参数。

​ 感知机算法将会运行直到误分类集合M清空。(也可能提前被炼丹师终止)。感知机所得到的解不一定相同(求一个试试,比如x_1 = (2,2)^T +, x_2 = (1.0)^T -.

​ 感知机算法是收敛的(经过有限次迭代在线性可分数据集可以得到解),记\hat w = (w^T,b)^T,\hat x=(x^T, 1)^T,则\hat w \hat x = w\cdot x +b(线性代数的一种方法)。在此基础上,有定理2.1 (Novikoff)。它说明,存在w_{opt},\gamma,可以正确区分T中所有数据,(满足\hat w_{opt} \hat x=0)使得对所有的i=1,2,...,N,点x_i,有
y_i(\hat w_{opt}\cdot \hat x_i)=y_i (w_{opt}\cdot x_i + b_{opt})\ge \gamma \tag{2.12}
​ 令R=\max\limits_{1\le i\le N}||x_i||,则感知机的误分类次数应该满足k\le (\frac{R}{\gamma})^2。证明如下:

​ 对于线性可分的数据集,显然是存在\hat w_{opt}的,但怎么理解\hat w_{opt} \hat x=0时候却有(2.12)成立呢?其实我们由之前的定义知道,\hat x =(x^T,1)^T,这样只要调整b,使||\hat w_{opt}||=1,那么对于有限的i=1,2,...,N,显然
y_i(\hat w_{opt} \cdot \hat x_i) >0
​ 因为数据都被正确分类,所以自然标签和分类结果的符号一致,所以必定>0,这样,只要取\gamma = \min\limits_i \{y_i(\hat w_{opt}\cdot \hat x_i)\},那么就可以确保(2.12)式子成立。

​ (2)对于第k-1次误分类,由(2.4)有
y_i(\hat w_{k-1}\cdot \hat x_i)=y_i(w_{k-1}\cdot x_i + b_{k-1}) \le 0 \tag {2.13}
​ 这样,w,b的权值更新为:
w_k \leftarrow w_{k-1}+\eta y_i x_i

b_k \leftarrow b_{k-1} + \eta y_i

​ 综合上面两个式子为向量,也就是
\hat w_k \leftarrow \hat w_{k-1} + \eta y_i \hat x_i \tag {2.14}
​ 假设\hat w_{opt} 存在,那么由(2.14),(2.12)有
\hat w_k \cdot \hat w_{opt} = \hat w_{k-1} \cdot \hat w_{opt} + \eta y_i \hat w_{opt} \cdot \hat x_i \ge \hat w_{k-1}\cdot \hat w_{opt} + \eta \gamma
​ 由,数学归纳法有
\hat w_k \cdot \hat w_{opt} \ge \hat w_{k-1} \cdot \hat w_{opt} +\eta\gamma \ge \hat w_{k-2} \cdot \hat w_{opt} +2\eta\gamma \ge ... \ge k\eta\gamma \tag {2.15}
​ 由(2.13)和(2.14),可以得到另一个不等式
||\hat w_k||^2 = ||\hat w_{k-1}||^2+2\eta y_i \hat x_i \hat w_{k-1}+\eta^2 ||\hat x_i||^2 (因为y_i 的平方为1)\le \\ ||\hat w_{k-1}||^2 +\eta^2 ||x_i||^2 \le ||\hat w_{k-1}||^2 + \eta^2R^2\le(重复以上操作)||\hat w_{k-2}||^2+2\eta^2R^2\le...\le k\eta^2R^2 \tag {2.16}
​ 结合(2.15)和(2.16),我们可以发现,
k\eta\gamma\le\hat w_k \hat w_{opt}\le||\hat w_k||||\hat w_{opt}||\le \sqrt{k}\eta R

2.4 感知机学习的对偶形式

​ 所谓对偶形式,其实是这样的:由之前的随机梯度下降方法,我们发现感知机根据误分类点修正超平面的方法是根据它的标签(x_i,y_i)来达成的,假设修改n次,那么w,b关于(x_i,y_i)的增量分别为\alpha_iy_ix_I\alpha_iy_i,这里\alpha_i=n_i\eta,这样,从学习过程可以发现,经过n次学习以后,w,b可以表示为:
w=\sum^N_{i=1}\alpha_iy_ix_I \tag {2.17}

b=\sum^N_{i=1}\alpha_iy_i \tag{2.18}

\alpha_i\eta等于1的时候,也就是n_i时,表示误分类的更新次数。如果这个更新次数越多,这就表明它距离分离超平面越近?这句话怎么理解?

​ 总之,对偶形式就是要把感知机的w与b表示为x_i,y_i的线性组合,下面是它的定义。

(算法2.2)感知机学习算法对偶形式

​ 输入:线性可分的数据集T(1-N),其中数据x_i \in R^ny_i\in {-1,+1}(正负分类),i=1,2,...,N,学习率\eta

​ 输出:\alpha, b ;感知机模型f(x)=sign(\sum^N_{j=1}\alpha_j y_jx_j\cdot x+b),其中\alpha= (\alpha_1,\alpha_2,...,\alpha_N)

​ (1) \alpha\leftarrow 0, b\leftarrow 0

​ (2) 在训练集合中选取数据(x_i,y_i)

​ (3)如果y_i(\sum^N_{j=1}\alpha_jy_jx_j+b)\le 0

​ 那么有
\alpha_i \leftarrow \alpha_i+\eta

b_k \leftarrow b_{k-1} + \eta y_i

​ (4)到2直到没有任何误分类现象出现。

​ 对偶形式的训练实例以内积的形式给出,为了加速计算,可以计算Gram矩阵来存储,即G=[x_i\cdot x_j]_{N\times N}Gram矩阵为矩阵分析中重要的一种矩阵,它是内积矩阵。

​ 一个例子:给定正样本x_1=(3,3)^T,x_2=(4,3)^T,负样本x_3=(1,1)^T,那么有:
Gram_G=\left[\matrix{9+9&12+9&3+3\\12+9&16+9&4+3\\3+3&4+3&1+1}\right]

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,634评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,951评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,427评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,770评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,835评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,799评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,768评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,544评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,979评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,271评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,427评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,121评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,756评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,375评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,579评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,410评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,315评论 2 352