7、支持向量机

（1）优化目标

与逻辑回归和神经网络相比，支持向量机，或者简称 SVM，在学习复杂的非线性方程时提供了一种更为清晰，更加强大的方式。

逻辑回归要做的事情：如果有样本y=1，则希望h（x）趋近1,；相反，有样本y=0，则希望h（x）=0。

新的代价函数将会水平的从这里到右边(图外)，然后我再画一条同逻辑回归非常相似的直线，但是，在这里是一条直线，也就是我用紫红色画的曲线，就是这条紫红色的折线。

左边的函数，我称之为cos𝑡1(𝑧)，同时，右边函数我称它为cos𝑡0(𝑧)。这里的下标是指在代价函数中，对应的 𝑦 = 1 和 𝑦 = 0 的情况，拥有了这些定义后，现在，我们就开始构建支持向量机。

得出 𝜃 最优值

对于逻辑回归，在目标函数中，我们有两项：第一个是训练样本的代价，第二个是我们的正则化项，我们不得不去用这一项来平衡。如上图𝐴 + 𝜆 × B。给定一个很大的 𝜆，意味着B的权重更大。

但对于向量机来说，改为优化目标𝐶 × 𝐴 + B，此时给定一个较小的C，也以为着B的权重大（C=1/𝜆？理解）。因此，可以得到相同的最优值的𝜃。所以，这就得到了在支持向量机中我们的整个优化目标函数。然后最小化这个目标函数，得到 SVM 学习到的参数𝐶。

最后有别于逻辑回归输出的概率。在这里，我们的代价函数，当最小化代价函数，获得参数𝜃时，支持向量机所做的是它来直接预测𝑦的值等于 1，还是等于 0。因此，这个假设函数会预测 1。当𝜃𝑇𝑥大于或者等于 0 时，或者等于 0 时，所以学习参数𝜃就是支持向量机假设函数的形式。那么，这就是支持向量机数学上的定义。

（2）大边界的直观理解

支持向量机将会选择这个黑色的决策边界，黑线看起来是更稳健的决策界。在分离正样本和负样本上它显得的更好。数学上来讲，这个距离叫做间距(margin)。

黑色的决策界和训练样本之间有更大的最短距离，这个距离叫做支持向量机的间距，且具有健壮性。因此，支持向量机有时也被称为大间距分类器。

事实上，支持向量机现在要比这个大间距分类器所体现得更成熟，尤其是当你使用大间距分类器的时候，你的学习算法会受异常点(outlier) 的影响。比如我们加入一个额外的正样本。

此时选择的是红线而非黑线

如果你将 C 设置的不要太大，则你最终会得到这条黑线，当然数据如果不是线性可分的，如果你在这里有一些正样本或者你在这里有一些负样本，则支持向量机也会将它们恰当分开。因此，大间距分类器的描述，仅仅是从直观上给出了正则化参数𝐶非常大的情形。

同时，要提醒你𝐶的作用类似于1/𝜆，𝜆是我们之前使用过的正则化参数。这只是𝐶非常大的情形，或者等价地 𝜆 非常小的情形。你最终会得到类似粉线这样的决策界，但是实际上应用支持向量机的时候，当𝐶不是非常非常大的时候，它可以忽略掉一些异常点的影响，得到更好的决策界。甚至当你的数据不是线性可分的时候，支持向量机也可以给出好的结果。

回顾 𝐶 = 1/𝜆，因此：

𝐶 较大时，相当于 𝜆 较小，可能会导致过拟合，高方差。

𝐶 较小时，相当于 𝜆 较大，可能会导致低拟合，高偏差。

（3）大边界的数学原理

前提：了解向量内积等

右图绿色的决策界有一个垂直于它的向量𝜃（平行于x轴的蓝线）。通过选择右边的决策界，而不是左边的那个，支持向量机可以使参数𝜃的范数变小很多，因为由 $p^i$ ·∥𝜃∥>=1可知，左图的p（i）很小，只能让∥𝜃∥很大；对于<=-1原理类似。所以，对于右图的绿色决策边界来讲，p（i）相对左图较大，∥𝜃∥相对左图较小，这就达到了我们的目的。因此，如果我们想令𝜃的范数变小，从而令𝜃范数的平方变小，就能让支持向量机选择右边的决策界。这就是支持向量机如何能有效地产生大间距分类的原因。