1. 感知机模型

感知机是二分类模型，旨在找到一个可以将输入空间划分为正负两类的超平面。
假设输入空间是 $x\subseteq R^n$ , 输出空间是 $y= \{+1, -1\}$ , 由输入空间到输出空间的感知机模型函数为：
$y=sign(wx+b)$
其中， w和b为感知机模型参数， $w\in R^n$ 叫做权值或者权值向量， $b\in R$ 叫做偏置， sign是符号函数
$sign(x)=\begin{cases} +1, x\geq0 \\ -1, x<0 \\ \end{cases}$
我们的目标是找到这样一个超平面S，即：
$wx+b=0$
超平面S可将输入空间分为正负两类。

如果存在某个超平面S能够将数据集D中的正实例点和负实例点完全地划分到超平面S的两侧，则称数据集D线性可分，否则，线性不可分。

2. 损失函数

假设训练集是线性可分的，那么我们要确定超平面S，即确定感知机模型参数w和b。
如何确定最优的模型参数？能够最小化误分类点到超平面S的总距离，对于输入空间 $R^n$ 中任一点 $x_0$ 到超平面S的距离为：
$\frac{1}{||w||}|wx_0+b|$
其中 $||w||$ 是 $w$ 的L2范数，对于误分类的数据点 $(x_i,y_i)$ 来说
$-y_i(wx_i+b)>0$
因此，误分类点 $(x_i,y_i)$ 到超平面S的距离是
$-\frac{1}{||w||}y_i(wx_i+b)$
那么，所有误分类点到超平面S的总距离为：
$-\frac{1}{||w||}\sum_{x_i\in M}y_i(wx_i+b)$
其中M为误分类点的集合，如果不考虑 $\frac{1}{||w||}$ ，得到的就是感知机模型的损失函数：
$L(w,b)=-\sum_{x_i\in M}y_i(wx_i+b)$
误分类点越少，损失函数的结果就越小，特别地，当没有误分类点时，损失函数的结果为0。

参考：
李航博士著《统计学习方法》

感知机模型原理（一）

感知机模型原理（一）

1. 感知机模型

2. 损失函数