感知机是二分类的线性分类模型,属于判别模型,包括原始形式和对偶形式。
(一)感知机模型
公式为:
f是输出,x是输入,w和b是参数,sign是符号函数(大于0为1,小于0为-1)
几何解释:
对于特征空间Rn中的一个超平面S,w是S的法向量,b是截距,将超平面空间划分为两个部分,完成2分类任务。
(二)学习策略
1.数据集的线性可分性:若存在wx+b的超平面可以将数据集完全分割,则称为线性可分。
2.学习策略(以下均假设数据集线性可分):
损失函数:选择了误分类点到超平面的总距离(可以选择误分类点数量,但是不是一个连续可导的函数,故舍弃,不易优化)
损失函数推导过程:
基础算法过程:1.定义损失函数为
2.使用梯度下降算法,可计算出w,b的梯度分别为:
(求偏导数即可)
3.取误分类点,对w,b进行更新:
3.算法的收敛性证明:
4.对偶形式算法:
由于w,b均初始化为0,故模型为:
其余算法步骤同上。
此外,由于训练事例仅以内积形式存在,故可提前算好Gram矩阵。G=[xi*xj]N*N
(三)课后习题
Minsky和Papert指出:感知机是线性模型,所以不能表示复杂的函数。如异或(XOR),验证感知机为什么不能表示异或?
答:参考https://blog.csdn.net/sanmaopep/article/details/78542361