逻辑回归的来龙去脉

逻辑回归是最早的一批用来解决分类问题的算法，是传统意义上的统计学模型，但也是目前为止使用最广泛的分类算法。统计学算法和机器学习算法最本质的区别就是，统计学算法有一套严格的理论支撑和一系列假设条件，而机器学习模型就没有这么多假设条件限制。
它是一种广义的线性回归模型，从名字上我们就可以看出，他是一个回归模型，而且是线性回归模型，但是它却和传统的线性回归模型不一样，是广义的，到这里我们就会思考，他是怎么通过回归的思想去解决分类问题的呢？让我们一起带着疑问去探索吧。

机器学习算法的框架往往可以用三部曲来表示：
1.定义假设函数
2.定义损失函数
3.根据优化算法找到使损失函数取得最小值的那个假设函数

所以，理解一个算法，需要知道该算法的假设函数是什么，损失函数是什么，以及如何找到最优的那个假设函数。所以接下来，我们就按照这三步依次来剖析逻辑回归的原理。

为了方便讲解，后面的推导都是以2分类问题为例，且设y的取值为{0,1}；
$x^{(i)}$ 表示第i个样本的特征集， $y^{(i)}$ 表示第i个样本的标签；
$x_{j}^{(i)}$ 表示第i个样本的第j个特征；

一、逻辑回归的假设函数

能用回归算法去处理分类问题吗？

回归问题的因变量y的取值范围为(−∞,+∞) ，分类问题的因变量y只有2个取值{0,1}，直接用回归算法去解决分类问题，显然不能满足分类问题对因变量的取值要求。

但分类问题和回归问题对自变量x的输入要求没有区别，差别只是在因变量y的取值上，那么我们是不是可以转换回归算法的输出值，让其满足分类问题对于y的要求。这个时候sigmoid函数就出现了，通过转换回归算法的输入结果，让其能解决分类问题。

Sigmoid函数的公式如下：
$S(x)=\frac{1}{1+e^{-x}}$

sigmoid曲线

假设x是回归的输出值，通过Sigmoid函数，能将回归算法输出的实数值映射到(0,1)区间，转换后的值可以看成是分类问题输出的概率p值，通过设置一个阈值，定p大于该阈值，就为类别1，小于该阈值就为类别0，从而解决了分类问题。

应用Sigmoid函数的优点有：

能将数值压缩到(0,1)区间；
转换后的曲线平滑、易于求导；
能将线性的输入转换为非线性的输出；
曲线先快速增长，再缓慢增长，达到一定值后基本保持平稳；
这个很符合现实规律，例如，人口增长在起初阶段大致是指数增长；然后随着开始变得饱和，增加变慢；最后，达到成熟时增加停止。

最后逻辑回归的假设函数如下：

$h_{θ}(x)=\frac{1}{1+e^{-θ^{T}x}}$
其中 $θ^{T}x$ 是关于x的线性回归方程， $h_{θ}(x)$ 是自变量为 $x$ 的条件下，因变量为类别1的概率，到这里我们就会想，为什么不直接用 $P$ 而要 $h$ 去表示概率呢，其实h是hypothesis的缩写，为了融入机器学习，我们将 $P$ 用 $h$ 去替换，有些统计学书籍中，是用 $P$ 去表示的，我们将上式叫做逻辑回归的假设函数。

从上式我们可以看出，逻辑回归是一个用sigmoid函数包裹着线性回归的广义线性回归模型。

所以逻辑回归可以看成是一个寻找决策边界的过程，决策边界就是我们的假设函数中的线性回归部分 $θ^{T}x$ ，在决策边界的两边，分别对应我们的2个类别。

决策边界

二、逻辑回归损失函数的由来

有了逻辑回归的假设函数，下一步就是求解参数。

逻辑回归的参数求解方式采用的是“极大似然估计”。

极大似然估计

极大似然估计是一种在总体概率函数和样本信息的基础上，求解模型中未知参数估计值的方法。

极大似然思想：

随机试验有多个可能的结果，但在一次试验中，有且只有一个结果会出现，如果在某次试验中，结果w出现了，则认为该结果发生的概率最大。

例如，有2个箱子，都装了100个球，其中甲箱子中有99个白球，1个黑球，乙箱子中有99个黑球，1个白球，假设在一次试验中，取出了一个黑球，那么这个黑球是从哪个箱子取出来的呢？我们很自然的想到该球有很大的概率是从乙箱子中取出来的。极大似然估计也是这种思想，黑球是我们最后的结果，如果要使该结果出现的概率最大，那么我们的未知参数（哪个箱子）就应该是乙箱子。

所以在已知某个随机样本满足某种概率分布，但是其中具体的参数不清楚的情况下，极大似然估计通过若干次试验，观察其结果，反推最具有可能（最大概率）导致这些样本结果出现的模型参数值！适用于模型已定，参数未知的情况。

极大似然估计求解参数步骤：

（1）写出似然函数：
假设单个样本的概率函数为 $p(x;θ)$ ,对每个样本的概率函数连乘，就可以得到样本的似然函数 $L(θ)=\prod_{i=1}^{n}p(x^{(i)};θ)$

（2）对似然函数取对数：
目的是为了让乘积变成加法，方便后续运算
$lnL(θ)=\sum_{i=1}^{n}lnp(x^{(i)};θ)$
（3）求导数，令导数为0，得到似然方程；
$L(θ)$ 和 $lnL(θ)$ 在同一点取到最大值，所以可以通过对 $lnL(θ)$ 求导，令导数为零，实现同个目的
（4）解似然方程，得到的参数即为所求；
最后通过求解(3)中的方程，获得未知参数值

逻辑回归损失函数推导

假设每个样本服从伯努利分布，有上可知，逻辑回归的假设函数是当类别为1时的概率值，实际情况下会发生类别为0和1的情况：
当出现类别为1时，发生该事件的概率就为 $h_{θ}(x)$ ；
当出现类别为0时，发生该事件的概率就为 $1-h_{θ}(x)$ ；

所以逻辑回归的概率函数可以写成：
$P(y|x;θ)=(h_{θ}(x))^{y}(1-h_{θ}(x))^{1-y}$
其中y取0或1;

将上式应用极大似然估计
得到似然函数为：
$L(θ)=\prod_{i=1}^{n}P(y^{(i)}|x^{(i)};θ)=\prod_{i=1}^{n}(h_{θ}(x^{(i)}))^{y^{(i)}}(1-h_{θ}(x^{(i)}))^{1-y^{(i)}}$
对数似然函数为：
$lnL(θ)=\sum_{i=1}^{n}ln((h_{θ}(x^{(i)}))^{y^{(i)}}+(1-h_{θ}(x^{(i)}))^{1-y^{(i)}})$
$=\sum_{i=1}^{n}(y^{(i)}ln(h_{θ}(x^{(i)}))+(1-y^{(i)})ln(1-h_{θ}(x^{(i)})))$

通过对对数似然函数求导，求得使对数似然函数取得最大值的参数，就是我们需要的参数。

一般机器学习算法参数的求解方式都是通过定义损失函数，然后求得使损失函数达到最小值的参数为我们的最优参数值，所以通过对对数似然函数取反，然后对样本求一个均值，就可以得到我们逻辑回归的损失函数了：
$J(θ)=-\frac{1}{n}\sum_{i=1}^{n}(y^{(i)}ln(h_{θ}(x^{(i)}))+(1-y^{(i)})ln(1-h_{θ}(x^{(i)})))$
我们将之称为交叉熵损失函数。

三、参数求解

有了损失函数，接下来就需要求出使得损失函数达到最小值的参数，求解方式有2种:

一种方式是：
通过对损失函数求导，令导数为0，然后通过解方程的方式求解出参数值。
通过严格的公式所求得的解，称为解析解或闭式解。但是该方式只适用于一小部分情况，很多方程没办法求解出解析解。很遗憾，逻辑回归绝大部分情况下没法使用该方式求解。

第二种方式是：
通过数值分析的方法求解近似解，有限元法、数值逼近、插值法，求解出来的参数称为数值解。
大多数偏微分方程，尤其是非线性偏微分方程，都只有数值解。该方法能解决绝大部分参数求解问题。

机器学习中常用的参数求解方式是第二种，并且使用的是梯度下降，牛顿法等方法求解出数值解。

最常用的是梯度下降方法，让我们以梯度下降为例，看看逻辑回归的参数求解方式。

梯度下降参数求解

梯度下降的参数更新公式为：
$θ _{j}:=θ _{j}-α\frac{\partial }{\partial θ_{j}}J(θ)$
其中α为步长， $\frac{\partial}{\partialθ_{j}}J(θ)$ 为损失函数 $J(θ)$ 对第 $j$ 个未知参数 $θ_{j}$ 的偏导数:

其中：
$J(θ)=-\frac{1}{n}\sum_{i=1}^{n}(y^{(i)}ln(h_{θ}(x^{(i)}))+(1-y^{(i)})ln(1-h_{θ}(x^{(i)})))$

$=-\frac{1}{n}\sum_{i=1}^{n}(y^{(i)}ln(\frac{1}{1+e^{-θ^{T}x^{(i)}}})+(1-y^{(i)})ln(1- \frac{1}{1+e^{-θ^{T} x^{(i)}} }))$

$=-\frac{1}{n}\sum_{i=1}^{n}(y^{(i)}ln(\frac{1}{1+e^{-θ^{T}x^{(i)}}})+(1-y^{(i)})ln(\frac{e^{-θ^{T}x^{(i)} }}{1+e^{-θ^{T}x^{(i)}}}))$

乍一看，这公式好长，对它求导一定很复杂，好想逃跑，统计学好难呀，让我们平复一下心情，静下心来，把复杂的问题简单化才是我们应该做的。我们先单独把 $ln(\frac{1}{1+e^{-θ^{T}x}})$ 拎出来，计算它的导数。
我们先把我们要用到的导函数列出来：
$y=lnx$ ，则 $y^{'}=\frac{1}{x}$
$y=\frac{u}{v}$ ，则 $y^{'}=\frac{u^{'}v-uv^{'}}{v^{2}}$
$y=e^{x}$ ，则 $y^{'}=e^{x}$
有了上述导函数，我们再来看看 $ln(\frac{1}{1+e^{-θ^{T}x}})$ 的导数如何计算：

$\frac{\partial }{\partial θ_{j}}ln(\frac{1}{1+e^{-θ^{T}x}})$
$=(1+e^{-θ^{T}x})(\frac{1}{1+e^{-θ^{T}x}})^{'}$
$=(1+e^{-θ^{T}x})(\frac{0-(1+e^{-θ^{T}x})^{'}}{(1+e^{-θ^{T}x})^{2}})$
$=(1+e^{-θ^{T}x})(\frac{0-(0-x_{j}e^{-θ^{T}x})}{(1+e^{-θ^{T}x})^{2}})$
$=\frac{x_{j}e^{-θ^{T}x}}{1+e^{-θ^{T}x}}$

同理可得：
$\frac{\partial }{\partial θ_{j}}ln(\frac{e^{-θ^{T}x}}{1+e^{-θ^{T}x}})$
$=\frac{-x_{j}}{1+e^{-θ^{T}x}}$

有了这2个式子的导数， $J(θ)$ 的导数就好计算了,为了便于观看，定：
$g(θ^{T}x)=ln(\frac{1}{1+e^{-θ^{T}x}})$
$z(θ^{T}x)=ln(\frac{e^{-θ^{T}x}}{1+e^{-θ^{T}x}})$

则：
$\frac{\partial}{\partialθ_{j}}J(θ)$
$=-\frac{1}{n}\sum_{i=1}^{n}(y^{(i)} g^{' }(θ^{T}x)+(1-y^{(i)})z^{' }(θ^{T}x))$
$=-\frac{1}{n}\sum_{i=1}^{n}(y^{(i)} \frac{x^{(i)}_{j}e^{-θ^{T}x^{(i)}}}{1+e^{-θ^{T}x^{(i)}}} +(1-y^{(i)}) \frac{-x^{(i)}_{j}}{1+e^{-θ^{T}x^{(i)}}})$
$=-\frac{1}{n}\sum_{i=1}^{n}(y^{(i)} - \frac{1}{1+e^{-θ^{T}x^{(i)}}}) x^{(i)}_{j}$
$=-\frac{1}{n}\sum_{i=1}^{n}(y^{(i)} - h_{θ}(x^{(i)}) ) x^{(i)}_{j}$

将上式代入到上述的参数更新公式中，得
$θ _{j}:=θ _{j}-α\frac{1}{n}\sum_{i=1}^{n}(h_{θ}(x^{(i)}) - y^{(i)} ) x^{(i)}_{j}$
由于 $α$ 本身是常数，所以去掉1/n这个常数项，
最后参数更新公式为：
$θ _{j}:=θ _{j}-α\sum_{i=1}^{n}(h_{θ}(x^{(i)}) - y^{(i)} ) x^{(i)}_{j}$
通过一步步迭代，就能找到最小值的近似解。

到这里，逻辑回归的假设函数，损失函数，以及参数求解过程，我们都了解了。

这里留下几个问题，供大家思考：
1、sigmoid函数的由来
2、能否用回归的最小二乘法去求解逻辑回归的参数