《统计学习方法》第 6 章“逻辑回归”学习笔记

用于分类

逻辑回归是一个分类模型，“逻辑”是 Logistic 的音译。之所以叫回归，是因为它实际上预测的是概率，即拟合概率，只是“临门一脚”，选择概率最大的类作为预测的分类结果，逻辑回归本质上是一个回归问题。

逻辑回归解决分类问题，且只用于二分类，在本章节的最后，我们沿用二分类的思路可以解决多分类问题。

Logistic 回归是一种思想简单，且应用广泛的分类方法。相对于深度学习而言，深度学习等复杂的机器学习算法，对数据的要求很高，朴素简单的 Logistic 往往有时能达到很好的效果。

在线性回归中，我们找到一组参数 $\theta$ ，使得 $y = \theta \cdot x_b$ 去拟合数据点，这里的 $y \in (-\infty,+\infty)$ 。

我们知道， $(-\infty,+\infty)$ 有两个极端，对于二分类问题，就使用这两个极端来做分类，越极端越肯定，即越趋于无穷，概率值越趋近于 0 或 1，这里 $y=0$ 就是这两类的分类边界。下面看一个例子。

对于一个二分类 ${A, B}$ 问题，如果我们通过逻辑回归计算出来的参数 $\theta$ ，使得 $y = \theta \cdot x_b$ 的值大于 0，则判定属于 $A$ 类，如果计算出来 $y$ 的值小于 0，则判定属于 $B$ 类。如果 $y$ 的值越大，则我们越肯定该预测点属于 $A$ 类，如果 $y$ 的值越小，则我们越肯定该预测点属于 $B$ 类。

$\theta \cdot x_b = 0$ 是一个超平面，在三维空间中，就是一个平面，在二维空间中，就是一条直线，根据点到超平面的距离公式：
$\cfrac{\theta \cdot x_b}{||\theta||^2}$ ， $\theta \cdot x_b$ 的绝对值越大，则表明预测点离这条直线越远，则我们越敢肯定，预测点属于其中一个类别。

$\theta \cdot x_b$ 的符号，决定了预测点的类别，在逻辑回归中，我们定义类别为“1”和“0”。
说明：我们完全可以将类别定义为“A”、“B”，或者 1、-1（在 SVM 算法中，就是这么定义的）。我们的定义总是为了我们后续优化计算方便，这一点可以在以后的学习中逐渐体会。
$|\theta \cdot x_b|$ 的大小，决定了我们对预测点属于某一个类别的肯定程度。例如我们从小到大的百分制考试中，以 60 为分界线，离 60 越远的分数，例如 10 分或者 90 分，我们总是能肯定对这一部分知识的掌握越好或者越坏，可以选拔优秀或者淘汰不合格，越靠近 60 的分数，其实可上可下，我们不好做优劣判断，这与逻辑回归是一个道理。

将上面的思路，写成数学表达式就是，我们期望找到一个函数，将 $y = \theta \cdot x_b$ 送入，得到一个概率，这个概率越趋近于 1 ，则表示判定属于其中一类的概率越大，这个概率越趋近于 0 ，则表示不属于这一类（即属于另一类）的概率越大。区分类别的概率边界值就是 0.5。

前辈们已经为我们找到了这个函数，命名为 sigmoid 函数，有的地方又称之为逻辑函数，它的数学表达式如下：

${\rm sigmoid}(t) = \frac{1}{1 + e^{-t}}$

于是，我们得到的逻辑回归模型就是这样一个模型：
${\rm sigmoid}(x) = \cfrac{1}{1 + e^{-\theta \cdot x}}$

以下对损失函数的推导中，我们总是定义，当 ${\rm sigmoid}(x) >= 0.5$ 时，类别 $y = 1$ ，当 ${\rm sigmoid}(x) < 0.5$ ，类别 $y = 0$ 。

广义线性回归

逻辑回归是广义的线性回归，预测房价是回归问题，但是否购买房子就是一个分类问题。因此逻辑回归可以看成“线性部分 + 非线性处理”，而“线性部分 + 非线性处理”也是深度学习的神经网络中神经元的表达形式。

我是这样理解广义线性回归的：

Sigmoid 函数可以用于概率计算：

$y = \cfrac{1}{1+e^{-\vec w \cdot \vec x}}$

将 $e^{-\vec w \cdot \vec x}$ 写成 $y$ 的函数，即

$e^{-\vec w \cdot \vec x} = \cfrac{1-y}{y}$

两边同时取对数，再乘以 $-1$ ，得

$\vec w \cdot \vec x = \ln \cfrac{y}{1-y}$

因此，对概率 $y$ 做一个非线性变换 $\ln \cfrac{y}{1-y}$ ，它就是自变量 $\vec x$ 的线性函数，因此是一个回归问题。

逻辑回归的损失函数

损失函数具有这样的性质：它度量了预测值和真实值的差别，对于一个样本而言它是非负数，且当预测值与真实值越接近时，损失函数的值越小，当预测值与真实值差别越大时，损失函数的值应该越大。

我们需要一个函数，这个函数可以度量概率和损失的关系，负对数函数就是这样一个函数，把概率从 $[0,1]$ 映射到损失 $[0, +\infty]$ 。因为负对数可以理解为先取倒数再取对数，取导数把 $[0,1]$ 映射到 $[1, +\infty]$ ，取对数把 $[1, +\infty]$ 映射到 $[0, +\infty]$ ，而在类标这里起到了指示的作用，因此我们一般设置类标为 $0$ 和 $1$ 。