统计学习方法8.11-8.21笔记—22.8.4~5

8.3 线性支持向量机与软间隔最大化（P125）

8.3.1 线性支持向量机

区别：对于线性可分向量机而言，需要满足的条件就是y_i(ω_ix+b)≥1就可以了，但是在线性支持向量机里头并不是所有点都满足上面这个条件，竟然会出现下图中黄/绿色的点，所以就要用松弛变量/弹性因子来对他们进行满足条件；

对于间隔内的点：由于一些点位于间隔区域内，那么其函数间隔肯定就＜1，这时候要加上一个松弛变量ξ_i使其≥1，这里的ξ_i ∈ (0,1)：
对于间隔外的点：对于这些点而言，它们的函数间隔明显是小于-1的（即函数间隔的绝对值大于1，但是因为错了方向，函数间隔将小于-1），公式还是上边那个，但是里面的ξ_i > 1；

我们称上面这个表达式为软间隔；
此时新的目标函数就变成了：

这里的C是惩罚系数，决定了原始参数和松弛变量之间的影响权重：
⚪C越大代表了误分类起到的作用更大，也可以说对误分类的惩罚力度大，这时候就更关注第二项；
⚪C越小代表正确分类的参数作用更大，对误分类的惩罚力度小，这时候就更关注第一项

这样一来，优化问题就变成了：

对于这个优化问题，可以继续按照之前的思路解得ω^*和b^*，然后得到相应的分离超平面和决策函数

8.3.2 学习的对偶算法

原理：将上面的优化问题转化成对偶问题来进行求解，为了与之前一般形式的不等式形式一致，那就转换成≤的样子（此处共有2N个条件）：

想要得到对偶问题，就要先得到其拉氏函数，那么就要用上拉氏乘子，这里给第一个约束条件用α_i，第二个用μ_i，这样就得到了拉氏函数：

然后用极小极大问题（原始问题）来进行求解：

转换成对偶问题就是：

对于原始问题来说，最终所得到的是ω^*和b^*（ξ对于超平面和决策函数没用）；
对于对偶问题来说，最终所得到的是α^*和μ^*，然后再带回到拉氏函数中得到对应的ω^*和b^*

求解过程：
1.内部极小化：对于ω，b，ξ_i求偏导并令其为0：

求解得：

对于第三个来说实际上有N个式子

然后带回到拉氏函数中，最终得到：

2.外部极大化问题：
乘了个-1就变成了极小化问题：

其约束条件为：

共有N+1个约束条件

3.利用KKT条件来解：
先把KKT条件搬过来：

对于等式第一项就是用偏导数=0的解；
对于条件第一项就是：

对于条件第二项就是：

对于条件第三项就是：

目标：从上述条件中找出b的最优解，根据ω和ξ的条件可以得到：

接下来根据y_j(ω^*x_j+b)=1（此处的y_j的值为±1，所以移项后还是y_j）就得到了b^*的表达式：

那么最终的分离超平面和决策函数也就出来了；

算法：

①当0<α_i^*<C时，那么对应的实例点就在边界上；
②当α_i^*>C时，此时ξ_i≠0了，那么就有这几种情况：

8.3.3 合页损失

合页损失函数：

其对应的图形是：

作用：用和也损失可以把原始问题中的ξ去掉，方便计算，对于原来的ξ而言：

然后把ξ变成和合页损失函数就是：

替代原始问题中的ξ后目标函数就变成了：

通过倍数变化（除以C）转换成另一种形式的等价表达式：

其中λ=1/2C，这里就是正则化的表达式

三个损失函数的比较：
图形：

表达式：
0-1损失函数：

感知机损失：

合页损失函数：

0-1损失函数不是连续可导的，所以一般不作为目标函数；
感知机的损失是当分类错误时(t≤0)有损失，不然就没有；
线性支持向量机的损失是当间隔小于等于1时(t≤1)为特殊点，有损失，不然就没有；
所以后面两种都可以拿来做目标函数

8.4 非线性支持向量机与核函数（P133）

8.4.1 非线性支持向量机

线性支持向量机的特点：
1.线性可分：

存在一个分离超平面把所有点全都正确分开；

2.线性不可分：

也能找到一个超平面，但是可能会出现误分类点，不过数量不多；

非线性支持向量机特点：
非线性可分：

如上图所示，虽然无法用直线（线性模型）将正负实例正确分开，但是可以用一条椭圆曲线（非线性模型）将其正确分开；
非线性不可分：

对应于线性不可分；
分离超曲面：就是上面的那个椭圆所对应的表达式，但是在实际应用中可能不止是个椭圆，也有可能是个多次方程；
以椭圆的那个为例，其对应的方程就是：