1. 感知机基础

1.1 模型

感知机是最基础的机器学习模型之一，它的类别为：

分类（√）、回归、标注
概率软分类（√）、非概率硬分类
监督（√）、无监督、强化
线性（√）、非线性
判别（√）、生成

模型定义：
输入空间 $X\subseteq\R ^n$ ，输出空间 $Y=\left\{ +1,-1\right\}$ ，定义由输入空间到输出空间的函数映射为：
$f(x)=\mathrm{sign}(\omega \cdot x+b)$
该模型称为感知机。其中 $\omega,b$ 为感知机参数， $\omega \in \R ^n$ 称为权值， $b\in\R$ 称为偏置， $\mathrm{sign}$ 为符号函数，即：
$\mathrm{sign}(x)= \left\{ \begin{aligned} &+1, \quad x\geq 0 \\ &-1, \quad x<0 \end{aligned} \right.$

该模型本质上是在输入空间定义了一个分离超平面： $\omega\cdot x+b=0$ ， $\omega$ 为该超平面的法向量， $b$ 为该超平面的截距。该超平面将输入空间划分为两部分，位于两侧的点（输入数据）分别属于正负两类。
给定一个线性可分的训练样本集，通过寻找合适的 $\omega$ 和 $b$ 使得训练样本集的数据被正确划分到超平面的两侧，该过程即感知机模型的训练过程。
这里有一个前提“训练样本集线性可分”，即对于训练样本集： $T=\lbrace(x_1,y_1),(x_2,y_2,\cdots,(x_N,y_N)\rbrace$ ，其中， $x_i\in X=\R ^n,y_i\in Y=\lbrace+1,-1\rbrace,i=1,2,\cdots,N$ ，若存在某超平面 $S:\omega\cdot x+b=0$ ，使得 $\forall(x_i,y_i)\in T:y_i(\omega\cdot x_i+b)>0$ ，则称 $T$ 为线性可分数据集。

1.2 函数间隔与训练策略

为了寻找能正确划分训练样本集的超平面，需要定义损失函数，并将损失函数极小化。如何度量损失呢？如下图所示，有A、B、C三点，表示三个样本，都在分离超平面的正侧，距离分离超平面的距离依次减小。距离越远，预测为正类的确信度越大，反之则不那么确信。

样本距离分类超平面的距离与分类确信度.png

在超平面 $\omega\cdot x+b=0$ 确定的情况下， $|\omega\cdot x+b|$ 能够相对地表示点 $x$ 距离超平面的远近，而 $\omega\cdot x+b$ 的符号与类标记 $y$ 的符号是否一致能够表示分类是否正确。所以可以用 $y(\omega\cdot x+b)$ 来表示分类的正确性与确信度，这就是函数间隔（functional margin）的概念。
设 $M$ 为 $T$ 上被超平面 $S$ 误分类的所有点的集合，则 $\forall (x_i,y_i) \in M:y_i(\omega\cdot x_i+b)<0$
按照机器学习约定俗成的惯例，损失函数为正，对损失函数求极小值。因此，我们将感知机的损失函数定义为 $T$ 上所有被误分类的点到超平面 $S$ 的函数间隔的绝对值，即： $-\sum_{x_i\in M}{y_i(\omega\cdot x_i+b)}$
感知机的学习策略是在假设空间中选取使上式最小的分离超平面系数 $\omega$ 和 $b$ 。

1.3 学习算法

感知机的学习问题可转化为求解使损失函数最小的最优化问题，即求参数 $\omega,b$ ，使其为以下极小化问题的解。 $\min_{\omega,b}L(\omega,b)=-\sum_{x_i\in M}{y_i(\omega\cdot x_i+b)}$
其中，M为误分类点的集合。求解该问题可使用梯度下降算法。
损失函数 $L(\omega,b)$ 的梯度为：
$\begin{aligned} \Delta _{\omega} L(\omega,b) &=-\sum_{x_i\in M}{y_ix_i} \\ \Delta _{b} L(\omega,b) &=-\sum_{x_i\in M}{y_i} \end{aligned}$
如果样本集非常大，梯度下降算法每轮迭代都要计算全局梯度，这需要耗费非常大的计算资源，实际应用中通常使用随机梯度下降算法代替，即每次随机选取一个误分类点 $(x_i,y_i)$ ，对 $\omega,b$ 沿梯度负方向更新。
$\begin{aligned} \omega \leftarrow & \omega +\eta y_ix_i \\ b\leftarrow & b+\eta y_i \end{aligned}$
其中 $\eta(0<\eta\leq 1)$ 为步长，又叫做学习率。随机梯度的期望为全局梯度，因此其收敛性与梯度下降算法一致。通过不断迭代以上步骤，可以期待损失函数 $L(\omega,b)$ 不断减小，直到为0.
该算法的直观理解为：当一个实例点被误分类，调整 $\omega,b$ 的值，使分离超平面向该误分类点移动，减小该误分类点与超平面的距离，直至超平面越过该点，使其被正确分类。
该算法在训练开始时需要选取一个初始分类超平面 $(\omega_0,b_0)$ ，经过 $k$ 轮迭代后：
$\begin{aligned} \omega _k &= \omega _0+\eta \sum_{i=1}^{k-1}{y_ix_i} \\ b_k &=b_0+\eta \sum_{i=1}^{k-1}{y_i} \end{aligned}$
其中， $(x_i,y_i)$ 为第 $i$ 轮迭代时随机选取的误分类点。当 $(\omega_0,b_0)=0$ 时，第 $k$ 轮迭代时的超平面方程为：
$\begin{aligned} &\quad\omega _k x+b_k=0 \\ \Rightarrow &\quad \eta\sum_{i=1}^{k-1}{y_ix_i}x+\eta \sum_{i=1}^{k-1}{y_i}=0 \\ \Rightarrow &\quad \sum_{i=1}^{k-1}{y_ix_i}x+\sum_{i=1}^{k-1}{y_i}=0 \end{aligned} \tag{1}$
可以看出，学习速率 $\eta$ 可以被约去，说明当 $(\omega_0,b_0)=0$ 时，算法收敛速度与 $\eta$ 无关。下面证明感知机训练算法收敛性，证明过程可进一步验证该结论。

2. 算法收敛性证明

证明感知机训练算法是收敛的，即证明训练过程可在有限轮迭代内完成，即迭代次数 $k$ 存在一个上界。
为了便于叙述，将偏置 $b$ 并入权重向量 $\omega$ ，记作 $\hat{\omega}=(\omega^T,b)$ ，同时对输入向量 $x$ 进行扩充，记作 $\hat{x}=(x^T,1)$ ，显然 $\hat{\omega}\cdot \hat{x}=\omega\cdot x+b$ 。

Novikoff定理：
设训练数据集 $T=\lbrace(x_1,y_1),(x_2,y_2,\cdots,(x_N,y_N)\rbrace$ 是线性可分的，其中， $x_i\in X=\R ^n,y_i\in Y=\lbrace+1,-1\rbrace,i=1,2,\cdots,N$ ，令 $R=\max_{1\leq i\leq N}{||\hat{x}_i||}$ ，则感知机学习算法在训练数据集上的误分类次数 $k$ 满足不等式：
$k\leq\left(\frac{R}{\gamma}\right)^2\Vert\hat{\omega}_{opt}\Vert^2$
其中 $\hat{\omega}_{opt}$ 为该训练数据集的任一分离超平面的扩展系数向量。

证明：
训练数据集线性可分，则存在能将数据集完全正确分开的分离超平面，对任一满足要求的分离超平面 $\hat{\omega}_{opt}\cdot\hat{x}=0$ ，存在 $\gamma>0$ ，对所有 $i=1,2,\cdots,N$ ：
$y_i(\hat{\omega}_{opt}\cdot \hat{x}_i)\geq\gamma \tag{2}$
初始时， $\hat{\omega}_0=0$ ，随机选取某样本，若被误分类，则更新权重。令 $\hat{\omega}_{k-1}$ 是第 $k$ 次迭代时的扩充权重向量，此次迭代随机选择的第 $k$ 个误分类样本满足条件：
$y_i(\hat{\omega}_{k-1}\cdot\hat{x}_i)\leq 0 \tag{3}$
迭代时进行如下更新：
$\hat{\omega}_k=\hat{\omega}_{k-1}+\eta y_i\hat{x}_i \tag{4}$
联合(2)(4)式，有：
$\begin{aligned} \hat{\omega}_k\cdot\hat{\omega}_{opt} &=\hat{\omega}_{k-1}\cdot\hat{\omega}_{opt}+\eta y_i\hat{x}_i\cdot\hat{\omega}_{opt} \\ &\geq \hat{\omega}_{k-1}\cdot\hat{\omega}_{opt}+\eta \gamma \\ &\geq \hat{\omega}_{k-2}\cdot\hat{\omega}_{opt}+2\eta \gamma \\ &\cdots \\ &\geq k\eta \gamma \end{aligned} \tag{5}$
联合(3)(4)式，有：
$\begin{aligned} |Vert\hat{\omega}_k\Vert^2&=\Vert\hat{\omega}_{k-1}+\eta y_i\hat{x}_i \Vert^2 \\ &=\Vert\hat{\omega}_{k-1}\Vert^2+2\eta y_i\hat{\omega}_{k-1}\cdot\hat{x}_i+\eta^2\hat{x}_i^2 \\ &\leq\Vert\hat{\omega}_{k-1}\Vert^2+\eta^2\hat{x}_i^2 \\ &\leq\Vert\hat{\omega}_{k-1}\Vert^2+\eta^2R^2 \\ &\leq\Vert\hat{\omega}_{k-2}\Vert^2+2\eta^2R^2 \\ &\cdots \\ &\leq k\eta^2R^2 \end{aligned} \tag{6}$
联合(5)(6)式，有：
$\begin{aligned} &k\eta \gamma \leq\hat{\omega}_k\cdot\hat{\omega}_{opt}\leq\Vert\hat{\omega}_k\Vert\Vert\hat{\omega}_{opt}\Vert\leq\sqrt{k}\eta R\Vert\hat{\omega}_{opt}\Vert \\ \Rightarrow &k^2\gamma ^2\leq kR^2 \Vert\hat{\omega}_{opt}\Vert^2 \\ \Rightarrow &k\leq\left(\frac{R}{\gamma}\right)^2\Vert\hat{\omega}_{opt}\Vert^2 \end{aligned} \tag{7}$
定理得证。
从(7)式可知，迭代次数 $k$ 存在上界，这说明当训练数据集线性可分时，感知机学习算法是收敛的。
进一步地，通过调整 $\eta$ 可以改变 $\Vert\hat{\omega}_{opt}\Vert^2$ 的取值。算法经过 $k$ 次迭代结束后得到分离超平面 $\hat{\omega}_{opt}\hat{x}=0$ ，由(1)式可知， $\hat{\omega}_{opt}=\eta\sum_{i=1}^{k}{y_ix_i}$ ，令 $\eta=\frac{1}{\Vert\sum_{i=1}^{k}{y_ix_i}\Vert}$ ，则可使得 $\Vert\hat{\omega}_{opt}\Vert=1$ ，从而得到感知机迭代次数收敛上界的精简形式：
$k\leq\left(\frac{R}{\gamma}\right)^2$

3. 附录

from sklearn.datasets import make_blobs
from matplotlib import pyplot as plt
import numpy as np
import random

X,Y=make_blobs(n_samples=100,
               n_features=2,
               centers=2,
               cluster_std=2.5,
               random_state=1)
Y[Y==0]=-1

fig=plt.figure(figsize=(7,5))
ax=fig.add_subplot(111)
plt.show()
ax.scatter(X[:,0],X[:,1],c=Y, s=5, cmap='rainbow')

w=np.zeros(2)
b=0
eta=0.1
watcher=True
i=0
while(watcher):
    watcher=False
    for k in range(100):
        xk=X[k]
        yk=Y[k]
        if yk*(np.dot(w,xk)+b)>0:
            continue
        w=w+eta*yk*xk
        b=b+eta*yk
        i+=1
        print('第%d个误分类样本，w=%s,b=%s'%(i,w,b))
        watcher=True
        x1=np.arange(-7.5,1,0.01)
        x2=-(w[0]*x1+b)/w[1]
        ax.plot(x1,x2)
        plt.pause(0.01)

感知机学习算法.png

感知机的收敛性