感知机模型(Perceptron)的收敛性解读 | 统计学习方法

Python复现，使用了随机梯度下降法，梯度下降法，adagrad和对偶形式四种算法：

舟晓南：感知机模型python复现 - 随机梯度下降法；梯度下降法；adagrad；对偶形式

在《统计学习方法》的感知机算法章节中，作者提出了一个问题，即如何证明一个线性可分的数据集，可以在有限次的迭代后得到这个分离超平面。我们称在有限次迭代后获得分离超平面的性质为感知机算法的收敛性。对于一个线性不可分的数据集，感知机模型将进入无法收敛的状态，即无法获得一个可以将所有实例正确分类的分离超平面，而是在迭代过程中进入震荡。

算法的收敛性：

感知机模型： $\\f(x)=\operatorname{sign}(w \cdot x+b)$

首先为了计算方便，将b并入权重向量w，记作 $\hat{w}=(\mathrm{w}， \mathrm{b})$ ，同样输入向量也需要相应地扩充，记作 $\hat{x}=(x， 1)$ 。

$\\\hat{w} \cdot \hat{x}=(\mathrm{w}， \mathrm{b}) \cdot(x， 1)=\mathrm{w} \cdot \mathrm{x}+\mathrm{b}$

证明1：

设训练集线性可分，那么存在超平面可将训练集完全正确分开，此超平面设为：

$\\\hat{w}_{\mathrm{opt}} \cdot \hat{x}=w_{\mathrm{opt}} \cdot x+b_{\mathrm{opt}}=0$

在我的另一篇关于感知机的文章：

舟晓南：统计学习方法 - 感知机模型解读 | 数据分析，机器学习，学习历程全记录

中提到作为函数间隔可以等比例放大缩小，因此这里为了方便可以将 $\hat{w}_{\mathrm{opt}}$ 放大缩小至 $\left\|\hat{w}_{\mathrm{opt}}\right\|=1$ 。

因为被正确分类的实例有：

$\\y_{i}\left(\hat{w}_{\mathrm{opt}} \cdot \hat{x}_{i}\right)>0$

且i有限（实例的数量有限），因此在 $y_{i}\left(\hat{w}_{\mathrm{opt}} \cdot \hat{x}_{i}\right)$ 中存在一个最小值，设此最小值为γ：

$\\\gamma=\min _{i}\left\{y_{i}\left(\hat{w}_{\mathrm{opt}} \cdot \hat{x}_{i}\right)\right\}$

那么对于所有实例来说，都有不等式（1）：

$\\y_{i}\left(\hat{w}_{\mathrm{opt}} \cdot \hat{x}_{i}\right) \geqslant \gamma$

证明2：

因为感知机算法从初始权重向量 $\hat{w}_{0}=0$ 开始，可令 ${\hat{w}}_{k-1}$ 是第k个误分类实例之前的扩充权重向量，且(xi,yi)是被其误分类的样本点。

对于误分类的实例，满足：

$\\y_{i}\left(\hat{w}_{k-1} \cdot \hat{x}_{i}\right) \leqslant 0$

经过损失函数求导得到梯度后，w可进行更新：

$\\\hat{w}_{k}=\hat{w}_{k-1}+\eta y_{i} \hat{x_{i}}$

那么利用不等式（1）可得：

$\\\begin{aligned} \hat{w}_{k} \cdot \hat{w}_{\text {opt }}=\left(\hat{w}_{k-1}+\eta y_{i} \hat{x}_{i}\right) \cdot & \hat{w}_{\text {opt }}=\hat{w}_{k-1} \cdot \hat{w}_{\text {opt }}+\eta y_{i} \hat{w}_{\text {opt }} \cdot \hat{x}_{i} \\ & \geqslant w_{k-1} \cdot \hat{w}_{\text {opt }}+\eta \gamma \end{aligned}$

由此可推得不等式（2）：

$\\\hat{w}_{k} \cdot \hat{w}_{\mathrm{opt}} \geqslant \hat{w}_{k-1} \cdot \hat{w}_{\mathrm{opt}}+\eta \gamma \geqslant \hat{w}_{k-2} \cdot \hat{w}_{\mathrm{opt}}+2 \eta \gamma \geqslant \cdots \geqslant k \eta \gamma$

接着，因为实例有限，即i有限，我们可以定义 $R= \max \left\|\hat{x}_{i}\right\|$ ，在此基础上计算 $\left\|\hat{w}_{k}\right\|^{2}$ ：

$\\\left\|\hat{w}_{k}\right\|^{2}=\hat{w}_{k} \cdot \hat{w}_{k}=\left(\hat{w}_{k-1}+\eta y_{i} \hat{x}_{i}\right)^{2}=\left\|\hat{w}_{k-1}\right\|^{2}+2 \eta y_{i} \hat{w}_{k-1} \cdot \hat{x}_{i}+\eta^{2}\left\|\hat{x}_{i}\right\|^{2}$

因为(xi, yi)是误分类项，所以 $y_{i} \hat{w}_{k-1} \cdot \hat{x}_{i}$ 为负，且 $\eta \in(0，1]$ ，所以可推得不等式（3）：

$\\\left\|\hat{w}_{k}\right\|^{2} \leqslant\left\|\hat{w}_{k-1}\right\|^{2}+\eta^{2}\left\|\hat{x}_{i}\right\|^{2} \leqslant\left\|\hat{w}_{k-1}\right\|^{2}+\eta^{2} R^{2} \leqslant\left\|\hat{w}_{k-2}\right\|^{2}+2 \eta^{2} R^{2} \leqslant \cdots \leqslant k \eta^{2} R^{2}$

结合不等式（2）和不等式（3），及 $\left\|\hat{w}_{opt}\right\|=1$ 的前提条件，可得：

$\\ k \eta \gamma \leqslant \hat{w}_{k} \cdot \hat{w}_{\mathrm{opt}} \leqslant\left\|\hat{w}_{k}\right\|\left\|\hat{w}_{\mathrm{opt}}\right\| =\left\|\hat{w}_{k}\right\|= \sqrt{k} \eta R$

关于上式 $\hat{w}_{k} \cdot \hat{w}_{\mathrm{opt}} \leqslant\left\|\hat{w}_{k}\right\|\left\|\hat{w}_{\mathrm{opt}}\right\|$ 这个部分为柯西-施瓦兹不等式，可自行查看证明过程。

通过上式可得：

$\\k \leqslant\left(\frac{R}{\gamma}\right)^{2}$

定理表明，误分类的次数k是有上界的，经过有限次搜索可以找到将训练数据完全正确分开的分离超平面。也就是说，当训练数据集线性可分时，感知机学习算法原始形式迭代是收敛的。

我是舟晓南，关注我的同名公众号和知乎，发掘更多内容哦

对机器学习，深度学习，python感兴趣，欢迎关注专栏，学习笔记已原创70+篇，持续更新中~ ^_^

学习笔记：数据分析，机器学习，深度学习

关于 python 二三事

专栏文章举例：

【机器学习】关于逻辑斯蒂回归，看这一篇就够了！解答绝大部分关于逻辑斯蒂回归的常见问题，以及代码实现 - 知乎 (zhihu.com)

记录一下工作中用到的少有人知的pandas骚操作，提升工作效率 - 知乎 (zhihu.com)

关于切片时不考虑最后一个元素以及为什么从0开始计数的问题 - 知乎 (zhihu.com)

关于转行：

舟晓南：如何转行和学习数据分析 | 工科生三个月成功转行数据分析心得浅谈

舟晓南：求职数据分析师岗位，简历应该如何写？｜工科生三个月成功转行数据分析心得浅谈

我建了个数据分析，机器学习，深度学习的群~ 需要学习资料，想要加入社群均可私信~

在群里我会不定期分享各种数据分析相关资源，技能学习技巧和经验等等~

详情私信，一起进步吧！

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 217,907评论 6赞 506
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,987评论 3赞 395
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 164,298评论 0赞 354
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,586评论 1赞 293
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,633评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,488评论 1赞 302
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,275评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,176评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,619评论 1赞 314
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,819评论 3赞 336
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,932评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,655评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,265评论 3赞 329
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,871评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,994评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,095评论 3赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,884评论 2赞 354

感知机模型(Perceptron)的收敛性解读 | 统计学习方法

算法的收敛性：

推荐阅读更多精彩内容