一、Perceptron Learning Algorithm

（一）算法原理

PLA本质是二元线性分类算法，即用一条线／一个面／一个超平面将1、2维／3维／4维及以上数据集根据标签的不同一分为二。算法确定后，根据 $W$ 取值的不同形成不同的 $h$ ，构成假设集合 $H$ 。如2维感知器算法，根据 $w_0$ , $w_1$ , $w_2$ 的不同取值，构成了不同的 $h$ ，这些 $h$ 最终构成 $H$ 。为了方便表示，将阈值的相反数记为 $w_0$ ，对应的数据点增加一维 $x_0$ ，恒为1。算法就是根据给定数据集 $D$ 从 $H$ 中选出与目标模式 $f$ 最为相似的 $g$ 。

图1.1 感知器假设的定义

图1.2 二维感知器

图1.3 感知器假设的向量表示

（二）更新规则／学习过程

遍历数据集合，若遇到异常点，即由当前 $W$ 更新为新的 $W$ 。
若异常点的 $y$ 值为+1，表明 $X$ 与当前 $W$ 的内积值为负，角度过大，更新后角度将会变小；若异常点的 $y$ 值为-1，表明 $X$ 与当前 $W$ 的内积值为正，角度过小，更新后角度将会变大。
更新 $W$ 的本质其实是从 $H$ 中选出与 $f$ 更为相似的 $h$ 的过程。

图1.4 感知器学习算法

更新后不能保证异常点变为正常点，只是异常的程度小了点。

图1.5 感知器一次更新的结果

（三）停止更新

在当前 $W$ 的情况下，遍历 $D$ 中所有数据点，无异常点时停止更新。
然而一定能够保证能停止更新吗？即在当前 $W$ 下无法找到一个新的 $W$ 使得对应的 $h$ 与 $f$ 更为接近？
答案是只要数据线性可分就能！

图1.6 PLA停止更新的充要条件

$W_f$ 与 $W_t$ 的内积值随着更新次数的上升而增大，同时， $W_t$ 的模也在增大。不过，内积增大的程度往往大于模增大的程度，保证了随着更新次数的上升， $W_t$ 与 $W_f$ 趋于越来越接近。

图1.7 内积值的增大

图1.8 模增大的上限

图1.9 整体趋势是越发接近

图1.10 二者余弦距离的下限

（四）PLA的优缺点

优点：简单、快速、任意维度；
缺点：假设数据线性可分，然而我们并不知道 $f$ ，也就不知道是否可分。再来，要是知道线性可分， $W$ 也已经知道了，没有必要再用PLA了；经过多少次更新才能收敛也不知道，如上证明， $T$ 与 $W_f$ 有关，然而我们不知道 $W_f$ 。

图1.11 PLA的优缺点

二、Pocket Algorithm

若数据线性不可分，使用PA，即既然异常点无法避免，PA在 $H$ 中找到一个使得异常点数目最小的 $h$ 作为 $g$ 。
NP问题： $O(n^k)$ 为多项式型时间复杂度， $O(k^n)/O(n!)/O(>\!n!)/...$ 为指数型时间复杂度。问题分为可解问题和不可解问题，多项式型时间复杂度的可解问题为P问题，验证时为多项式型时间复杂度的问题为NP问题，能否可解未知。P问题肯定是NP问题，NP问题不一定是P问题。

图2.1 数据线性不可分的情况

PA，初始化 $W$ ，放到口袋里，若遇到异常点，使用PLA的更新规则得到新的 $W$ ，遍历数据集，若是新的 $W$ 下异常点的数目更少，则用新的 $W$ 替换旧的 $W$ 放到口袋中，否则不替换。继续遍历数据集，得到下一个异常点，重复上述过程至足够迭代次数。口袋里放的永远是目前使得异常点最少的 $W$ 。
PA不影响PLA的正常运行，只是从历史 $W$ 中挑出使得样本内分类错误最少的 $W$ 作为最终返回值。

图2.2 PA流程

如果数据集是线性可分的，PLA和PA都能够实现 $D$ 内无异常点的分类，但是PA的时间会长于PLA，因为多了比较两个不同的 $W$ 下遍历一轮数据所得异常点数目多少的过程。

图2.3 PLA vs PA

机器学习基石笔记：02 Learning to Answer Yes/No、PLA、PA