神经网络和深度学习 - Chapter2 神经网络基础

图像分类任务，一张图片由三个通道表示红绿蓝假设每个通道的维度为64x64，则总共的输入维度为： $64 \times 64 \times 3$ ，则输入向量维度 $n_x = 12288$ ；

图像分类问题.png

假设总共有 $m$ 个训练样本： $\left\{ (x^{(1)}, y^{(1)}), (x^{(2)}, y^{(2)}),...,(x^{(m)}, y^{(m)}) \right\}$ ；最终 $X \in \mathbb{R}^{(n_x, m)}$ 和 $Y \in \mathbb{R}^{(1, m)}$ 的计算公式如下：

符号定义.png

逻辑回归数学表达式为： $\hat{y} = \sigma (w^Tx + b) = \sigma (\theta^Tx)$ ，其中 $\sigma$ 为sigmoid激活函数。sigmoid激活函数数学表达式为： $\sigma(z) = \frac{1}{1+e^{-z}}$

Logistic Regression定义.png

对于逻辑回归，可以采用平方误差损失函数；但是这样会导致变成一个非凸的优化问题。使得梯度下降算法可能会找到一个局部最优值。
所以对于逻辑回归常采用交叉熵损失函数，这样使得问题变成了一个凸优化问题，使得梯度下降算法能够找到一个全局最优值；单个样本的损失函数定义如下：
$L(\hat{y}^{(i)}, y^{(i)}) = - \left[ y^{(i)}log(\hat{y}^{(i)}) + (1-y^{(i)}) log(1- \hat{y}^{(i)}) \right]$
整个样本的损失函数定义如下：
$J(w,b) = -\frac{1}{m} \sum_{i=1}^{m} \left[ y^{(i)}log(\hat{y}^{(i)}) + (1-y^{(i)}) log(1- \hat{y}^{(i)}) \right]$

逻辑回归损失函数.png

梯度下降法的目标：找到 $w,b$ 使得损失函数 $J(w,b)$ 达到最小值；
通过随机初始化的方式获取 $w,b$ 的初始值，然后使用梯度下降法不断的更新参数 $w,b$ ；下式中 $\alpha$ 表示学习率，即更新步长；
$w := w - \alpha \frac{\partial J(w,b)}{\partial w} \\ b := b - \alpha \frac{\partial J(w,b)}{\partial b}$

image.png

前向计算得到 $J$ 的过程： $u = b*c$ -> $v = a+u$ -> $J=3v$ ；先计算得到 $u$ ，再计算得到 $v$ ，然后最终得到 $J$ 的值。

前向传播.png
反向传播过程： 首先计算 $\frac{dJ}{dv} = 3$ ，然后计算 $\frac{dJ}{da} = \frac{dJ}{dv} \frac{dv}{da} = 3*1 = 3$ 和 $\frac{dJ}{du} = \frac{dJ}{dv} \frac{dv}{du} = 3*1 = 3$ ；
之后计算 $\frac{dJ}{db} = \frac{dJ}{du} \frac{du}{db} = 3*2 = 6$ ， $\frac{dJ}{dc} = \frac{dJ}{du} \frac{du}{dc} = 3*3=9$ ；从上面的计算过程可以看出，在计算 $J$ 对各个参数的偏导数的时候是一个从右到左的过程，即是一个反向传播的过程；前面参数偏导数的计算，依赖后面参数偏导数计算的结果；通过这种方式能够加速梯度下降过程，这也是反向传播算法的精髓所在。

反向传播.png

假设输入的特征向量为 $X = [x_1, x_2]$ ，则整个逻辑回归的参数共有三个 $w_1, w_2, b$ ；
损失函数 $J(a,y)$ 对 $a$ 的偏导数如下：
$L(a,y) = - \left[ ylog(a) + (1-y)log(1-a) \right] \\ \frac{\partial L(a,y)}{\partial a} = - \frac{y}{a} + \frac{1-y}{1-a}$
其中sigmoid的函数 $\sigma(z)$ 对 $z$ 的导数为： $\frac{d\sigma(z)}{dz} = \sigma(z)(1-\sigma(z))$ ；

image.png

对于单个样本而言，最终三个参数 $w_1,w_2,b$ 的更新公式如下，其中 $dz = a - y$
$w_1 := w_1 - \alpha * x_1 * dz \\ w_2 := w_2 - \alpha * x_2 * dz \\ b := b - \alpha * dz$

单个样本.png
对于 $m$ 个样本，参数的更新公式如下：

m个样本参数更新公式.png
对于 $m$ 个样本，Logistic Regression前向和反向传播过程；此时需要循环遍历 $m$ 个样本，并且需要循环遍历所有参数；

logistic regression前向&反向传播过程.png