1、模型
假设输入空间(特征向量)为,输出空间为。输入表示实例的特征向量,对应于输入空间的点;输出表示示例的类别。由输入空间到输出空间的函数为
y=f(x)=sign(wx+b) (1)
称为感知机。其中,参数w叫做权值向量weight,b称为偏置bias, sign为反对称的符号函数,定义为
感知机模型是一种线性分类模型,属于判别模型。我们需要做的就是找到一个最佳的满足的w和b的值,即确定一个分离超平面(Separating Hyperplane)将正负样本分开。如图所示。
二、策略
假设训练数据集是线性可分的,感知机学习的目标就是求得一个能够将训练数据集中正样本和负样本完全分开的分类超平面,为了找到分类超平面,需要定义一个损失函数并通过将损失函数最小化来求w和b。定义损失函数,找到参数w和b,使得损失函数最小。
损失函数的选取 �
1、损失函数的一个自然选择就是误分类点的总数,但是这 样的点不是参数w,b的连续可导函数,不易优化
�2、损失函数的另一个选择就是误分类点到划分超平面 损失函数的另个择就是误分类点到划分超平面 S(w.x+b=0)的总距离
三、算法(PLA)
感知机学习问题转化为求解w和b关于损失函数的最优化问题,如果只考虑最优化问题的话,有很多方法可以求解,比如梯度下降法(Gradient Descent)等。
所谓的随机梯度下降法,就是在训练的时候随机选取一个误分类点对w和b进行更新,更新方式如下:
其中η>0是学习率,影响优化速率。
感知机学习算法是误分类样本驱动的,每一次更新权重和偏置都是由误分类样本决定。在实际操作中,首先随机选取一个分类超平面,即随机选取,然后用梯度下降法不断极小化目标函数式。极小化的过程不是一次使得所有误分类点的梯度下降,而是一次随机选取一个误分类点使其梯度下降。