感知机模型原理(一)

1. 感知机模型

感知机是二分类模型,旨在找到一个可以将输入空间划分为正负两类的超平面。
假设输入空间是x\subseteq R^n, 输出空间是y= \{+1, -1\}, 由输入空间到输出空间的感知机模型函数为:
y=sign(wx+b)
其中, w和b为感知机模型参数, w\in R^n叫做权值或者权值向量, b\in R叫做偏置, sign是符号函数
sign(x)=\begin{cases} +1, x\geq0 \\ -1, x<0 \\ \end{cases}
我们的目标是找到这样一个超平面S, 即:
wx+b=0
超平面S可将输入空间分为正负两类。

如果存在某个超平面S能够将数据集D中的正实例点和负实例点完全地划分到超平面S的两侧,则称数据集D线性可分, 否则, 线性不可分。

2. 损失函数

假设训练集是线性可分的,那么我们要确定超平面S,即确定感知机模型参数w和b。
如何确定最优的模型参数?能够最小化误分类点到超平面S的总距离,对于输入空间R^n中任一点x_0到超平面S的距离为:
\frac{1}{||w||}|wx_0+b|
其中||w||w的L2范数,对于误分类的数据点(x_i,y_i)来说
-y_i(wx_i+b)>0
因此,误分类点(x_i,y_i)到超平面S的距离是
-\frac{1}{||w||}y_i(wx_i+b)
那么,所有误分类点到超平面S的总距离为:
-\frac{1}{||w||}\sum_{x_i\in M}y_i(wx_i+b)
其中M为误分类点的集合,如果不考虑\frac{1}{||w||},得到的就是感知机模型的损失函数:
L(w,b)=-\sum_{x_i\in M}y_i(wx_i+b)
误分类点越少,损失函数的结果就越小,特别地,当没有误分类点时,损失函数的结果为0。

参考:
李航博士著《统计学习方法》

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。