神经网络（二）：Softmax函数与多元逻辑回归

一、 Softmax函数与多元逻辑回归

为了之后更深入地讨论神经网络，本节将介绍在这个领域里很重要的softmax函数，它常被用来定义神经网络的损失函数（针对分类问题）。

根据机器学习的理论，二元逻辑回归的模型公式可以写为如下的形式：

$P(y = 1) = \frac{1}{1 + e^{-XW^T + b}} \tag{1}$

在公式（1）中，对分子、分母同时乘以，得到公式（2），其中，

；

。

$P(y = 1) = \frac{e^{XW_1^T + b_1}}{e^{XW_0^T + b_0} + e^{XW_1^T + b_1}}\\ P(y = 0) = \frac{e^{XW_0^T + b_0}}{e^{XW_0^T + b_0} + e^{XW_1^T + b_1}}\tag{2}$

事实上，多元逻辑回归的模型公式也可以写成类似的形式。具体地，假设分类问题有个类，分别记为，则多元逻辑回归的模型可以表示为如下的形式。

$\begin{cases} P(y = 1) = \frac{e^{X\beta_1 + c_1}}{1 +\sum_{j =1}^{k - 1} e^{X\beta_j + c_j}}\\ ... \\ P(y = 0) = \frac{1}{1 +\sum_{j =1}^{k - 1} e^{X\beta_j + c_j}} \end{cases} \tag{3}$

不妨记

，

$W_i^T = W_0^T + \beta_i$

。在公式（3）中对分子分母同时乘以

，可以得到公式（4）。

$e^{XW_0^T + b_0}$

$P(y = l) = \frac{e^{XW_l^T + b_l}}{\sum_{j = 1}^{k - 1}e^{XW_j^T + b_j}} \tag{4}$

公式（4）中的函数其实就是softmax函数（softmax function），记为

。这个函数的输入是一个

$\sigma(Z)$

维的行向量，而输出也是一个

维行向量，向量的每一维都在区间中，而且加总的和等于1，如图1所示。从某种程度上来讲，softmax函数与sigmoid函数非常类似，它们都能将任意的实数“压缩”到区间。

图1

在softmax函数的基础上，可以将逻辑回归转换成图的形式，这样可以更直观地在神经网络里使用这个模型（在机器学习领域，复杂的神经网络常被表示为图）。以二元逻辑回归为例，得到的图像如图2所示。图中的方块表示线性模型。另外值得注意的是，图2所表示的模型与《神经网络（一）》中的sigmoid神经元模型是一致的，只是图2可以很轻松地扩展到多元分类问题（增加图中方块的数目）。