神经网络基础

1. 二分分类

例子：识别图片中是否有猫，有输出1否则输出0。
计算机储存图片通过RGB，即用三个矩阵分别储存red、green和blue的像素值，以常见64*64为例，从而用一个64*64*3的矩阵储存一张图片。

计算机对图片的储存

如何用一个特征向量 $x$ （列向量）来表示这个像素矩阵？按照视频中的说明，先读取red矩阵的像素，逐行读取，以上图为例，读为 $[\color {red}{255,231,42,22,123,94,...,194,202}]^T$ ，接着读取green矩阵的像素，仍是逐行读取，从而矩阵为 $[\color {red} {255,231,42,22,123,94,...,194,202},\color {green}{255,134,202,22,...,94}]^T$ ，最后读取blue矩阵的像素，所以整个图片存储为一个列向量 $[\color {red}{255,231,42,22,123,94,...,194,202},\color {green}{255,134,202,22,...,94}, \color {blue}{255,134,93,22,...,142}]^T$ 。
即表示成如下：

图片的储存矩阵
符号约定
$(x,y)$ :一个样本， $x \in R^{n_x}$ 为输入， $y \in \{0,1\}$ 为输出。
$m$ 个训练样本： ${(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),...(x^{(m)},y^{(m)})}$
训练集的样本数： $m_{train}$ 或 $m$
测试集的样本数： $m_{test}$
矩阵 $X$ :每一列是一个样本，从而是 $n_x \times m$ 维的。

样本的矩阵表示
- 对应python命令X.shape输出 $X$ 的维数 $n_x \times m$
同样的，输出 $y$ 也表示为一个 $1\times m$ 维向量 $(y^{(1)},y^{(2)},...y^{(m)})$ 。python命令Y.shape会输出 $1\times m$ 。

2. Logistic回归

$\hat{y}$ ：对输出 $y$ 的预测值，在二分类问题中就是 $y$ 取1的概率 $P(y=1|x)$ 。
参数： $w \in R^{n_x}$ ， $b \in R$
给出输入变量和参数，如何得到预测值?
线性回归是，但并不是一个很好的二分分类方法，因为我们希望是个介于0和1之间的数以表示概率，而可以取任何值甚至是负数，为克服这个困难将输出做一个sigmoid函数变换，其中sigmoid函数为，其函数图像为

sigmoid函数图像

可以看到：
- 当 $z$ 取相当大的数时， $e^{-z}$ 趋向于0，从而 $\sigma(z)$ 趋向于1
- 而当 $z$ 取相当大的负数时， $e^{-z}$ 趋向于 $+\infty$ ，从而 $\sigma(z)$ 趋向于0
- 当 $z=0$ 时， $\sigma(z)=\frac{1}{2}$
  所以 $\sigma(z)$ 取值位于0和1之间。

3. Logistic 回归——cost function(成本函数/代价函数)

为了训练 $w$ 和 $b$ 需要定义cost function，用来衡量算法效果。
回顾：Logistic回归
$\hat{y}=\sigma(w^T*x+b)$ ，其中 $\sigma(z)=\frac{1}{1+e^{-z}}$ ，给定训练集 $\{(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),...(x^{(m)},y^{(m)})\}$ ，希望有 $\hat{y} :=(\hat{y}^{(1)},\hat{y}^{(2)},...\hat{y}^{(m)}) \approx y:=(y^{(1)},y^{(2)},...y^{(m)})$ 。
先定义针对单个样本的Loss (Error) Function :度量预测值与实际值之间有多接近。
- 例如，可以定义 $L(\hat{y},y)=\frac{1}{2}(y-\hat{y})^2$ ，事实上并不这样应用，因为这样会导致函数非凸从而有多个局部最优解，所以使用梯度下降法时无法找到最优解（ $\color{red}{不太明白这句话，因为二次函数本来就是凸函数啊}$ ）。
- 在Logistic回归中会定义一个凸的损失函数：
  - 若 $y=1$ ，则 $L(\hat{y},y)=-log(\hat{y})$ ，让损失函数尽可能小，从而 $log(\hat{y})$ 尽可能大，从而 $\hat{y}$ 尽可能大，而 $\hat{y}$ 是sigmoid函数的输出，最大就是1，所以此时是要让 $\hat{y}=1$ ;
  - 若 $y=0$ ，则 $L(\hat{y},y)=-log(1-\hat{y})$ ，让损失函数尽可能小，从而 $log(1-\hat{y})$ 尽可能大，从而 $1-\hat{y}$ 尽可能大，即 $\hat{y}$ 尽可能小，而 $\hat{y}$ 是sigmoid函数的输出，最小就是0，所以此时是要让 $\hat{y}=0$
cost function(成本函数)：度量在训练集上的整体表现。
$J(w,b)=\frac{1}{m}\sum\limits_{i=1}^mL(\hat{y},y)=-\frac{1}{m}\sum\limits_{i=1}^m[y^{(i)}log(\hat{y}^{(i)})+(1-y^{(i)})log(1-\hat{y}^{(i)})]$
注： $\color{red}{Loss funciton:单个样本；} \color{red}{Cost function: 训练集上所有样本的整体表现。}$

4.梯度下降法

用来训练或学习训练集上的参数 $w,b$ 。
回顾：
$J(w,b)=\frac{1}{m}\sum\limits_{i=1}^mL(\hat{y},y)=-\frac{1}{m}\sum\limits_{i=1}^m[y^{(i)}log(\hat{y}^{(i)})+(1-y^{(i)})log(1-\hat{y}^{(i)})]$
梯度下降法就是给定初始的 $(w,b)$ ，找到当前下降最快的方向走一步，再找当前下降最快的方向走一步，一直到找到最优解为止，因为我们上面定义的Loss Function是凸函数，所以肯定能找到全局最优解。如下图所示。

梯度下降法示意图
- Logistic回归基本上任意初始化方法都好用，一般初始化为0。
其具体过程为，针对参数 $w$ ，迭代为 $w:=w-\alpha\frac{\partial L(w,b)}{\partial w}$
- 其中 $\alpha$ 是学习率，可以控制每次迭代或者说梯度下降法中的步长。
- 编程时就用 $\mathrm{d}w$ 表示对 $w$ 的偏导数。
- $J(w,b)$ 是凸函数，因此，若 $\mathrm{d} w >0$ ， $w$ 迭代后向着减小的方向步进，图上来看就是向左迭代；若 $\mathrm{d} w <0$ ， $w$ 迭代后向着增大的方向步进，图上来看就是向右迭代，无论哪种情况，都会找到全局最优解，如下图所示。
  
  w迭代示意图
类似的， $b$ 的迭代为： $b:=b-\alpha\frac{\partial L(w,b)}{\partial b}$

5.计算图（前向传播）及其导数计算（后向传播）

5.1 计算图

计算图感觉像高数里的函数复合过程用图表示出来。
toy example
$J(a,b,c) = 3(a+bc)$ ，其复合与计算过程如下图

toy example的复合和计算过程

5.2 计算图的导数计算

从右向左推导出复合函数的链式求导法则。

复合函数的链式求导法则示例

6.Logistic回归中的梯度下降

6.1 单个样本的情况

回顾Logistic回归
- 公式：
  $\begin{array}{l}{z=w^{T} x+b} \\ {\hat{y}=a=\sigma(z)} \\ {L(a, y)=-(y \log (a)+(1-y) \log (1-a))}\end{array}$
- 计算步骤（前向，计算loss function）：
  假设有两个特征，从而所需参数为
  - Step1：计算 $z = w_1 *x_1+w_2*x_2+b$ ;
  - Step2：计算 $\hat{y} = a = \sigma(z)$ ，其中 $\sigma()$ 是sigmoid函数 $\sigma(z)=\frac{1}{1+e^{-z}}$ ;
  - Step3：计算loss function： $L(a,y)=-[ylog(a)+(1-y)log(1-a)]$ 。
    即输入参数 $w_1,w_2,b$ 计算损失函数最小。如图所示。
    
    单个样本的logistic流程图
- 计算步骤（后向，计算偏导数）
  - Step1： $\mathrm{d}a=\frac{\partial L(a,y)}{\partial a}=-\frac{y}{a}+\frac{1-y}{1-a}$
  - Step2： $\frac{\mathrm{d}a}{\mathrm{d}z}=\frac{e^{-z}}{[1+e^{(-z)}]^2}=\frac{1}{1+e^{-z}} \bullet \frac{e^{-z}}{1+e^{-z}}=a(1-a)$ 。所以有
    $\mathrm{d}z = \frac{\partial L(a,y)}{\partial z}=\frac{\partial L(a,y)}{\partial a} \bullet \frac{\mathrm{d}a}{\mathrm{d}z}$
    $=(-\frac{y}{a}+\frac{1-y}{1-a})a(1-a)=(a-1)y+a(1-y)$
    $=a-y$ ；
  - Step3. $\mathrm{d}w_1 = \frac{\partial L(a,y)}{\partial a} \bullet \frac{\mathrm{d}a}{\mathrm{d}z} \bullet \frac{\partial z}{\partial w_1} = x_1(a-y)$
    $\mathrm{d}w_2 = \frac{\partial L(a,y)}{\partial a} \bullet \frac{\mathrm{d}a}{\mathrm{d}z} \bullet \frac{\partial z}{\partial w_2} = x_2(a-y)$
    $\mathrm{d}b = \frac{\partial L(a,y)}{\partial a} \bullet \frac{\mathrm{d}a}{\mathrm{d}z} \bullet \frac{\partial z}{\partial b} = (a-y)$
  - Step4.迭代公式：
    $w_1 = w_1 -\alpha\mathrm{d}w_1$
    $w_2 = w_2 -\alpha\mathrm{d}w_2$
    $b = b -\alpha\mathrm{d}b$

6.2 $m$ 个样本的训练集

回顾：
$J(w,b)=\frac{1}{m}\sum\limits_{i=1}^mL(a^{(i)},y^{(i)})=-\frac{1}{m}\sum\limits_{i=1}^m[y^{(i)}log(a^{(i)})+(1-y^{(i)})log(1-a^{(i)})]$
其中
$a^{(i)} = \hat{y}^{(i)} = \sigma(z^{(i)})=\sigma(w^Tx^{(i)}+b)$
计算偏导数
$\mathrm{d}w_1 =\frac{\partial J(w,b)}{\partial w_1}=\frac{1}{m}\sum\limits_{i=1}^m\mathrm{d}w_1^{(i)}=\frac{1}{m}\sum\limits_{i=1}^mx_1^{(i)}(a^{(i)}-y^{(i)})$
$\mathrm{d}w_2 =\frac{\partial J(w,b)}{\partial w_2}=\frac{1}{m}\sum\limits_{i=1}^m\mathrm{d}w_2^{(i)}=\frac{1}{m}\sum\limits_{i=1}^mx_2^{(i)}(a^{(i)}-y^{(i)})$
$\mathrm{d}b=\frac{\partial J(w,b)}{\partial b}=\frac{1}{m}\sum\limits_{i=1}^m\mathrm{d}b^{(i)}=\frac{1}{m}\sum\limits_{i=1}^m(a^{(i)}-y^{(i)})$
伪代码流程

# w，b一次迭代的流程
dw_1=0,dw_2=0,db=0,J=0
for i in range(m):   #m个样本
    z(i) = w^T*x(i)+b
    a(i) = \sigma(z(i))
    J+=-[y(i)log(a(i))+(1-y(i))log(1-a(i))]  
    dz(i) = a(i)-y(i)
    dw_1 += x_1(i)[a(i)-y(i)]
    dw_2 += x_2(i)[a(i)-y(i)]  #假设有2个特征，即n=n_x=2
    db += a(i)-y(i)
J/=m
dw_1/=m,dw_2/=m,db/=m
w_1 -=\alpha * dw_1
w_2 -=\alpha * dw_2
b -=\alpha * db

说明：
- 该流程有2个for循环，第一个是遍历m个样本点，第二个是遍历2个特征。
- 深度学习中有大量的数据，所以尽量避免使用显式的for循环，从而引出vectorization。

7.Vectorizaion（向量化）

7.1 向量化

只要有其他可能，就不要用显式for循环
Whenever possible, avoid explicit for-loops。
numpy模块的内置函数

np.exp()
np.log()
np.abs()

利用向量化，前面的程序可以修改为

import numpy as np
# w，b一次迭代的流程
dw=np.zeros((n_x,1)),db=0,J=0
for i in range(m):   #m个样本
    z(i) = w^T*x(i)+b
    a(i) = \sigma(z(i))
    J+=-[y(i)log(a(i))+(1-y(i))log(1-a(i))]  
    dz(i) = a(i)-y(i)
    dw += x(i)[a(i)-y(i)]
    db += a(i)-y(i)
J/=m
dw /=m, db/=m
w_1 -=\alpha * dw_1
w_2 -=\alpha * dw_2
b -=\alpha * db

7.2 向量化Logistic回归

回顾:m个样本的训练集
$z^{(1)}=w^T*x^{(1)}+b$ , $a^{(1)}=\sigma(z^{(1)})$
$z^{(2)}=w^T*x^{(2)}+b$ , $a^{(2)}=\sigma(z^{(2)})$
………
$z^{(m)}=w^T*x^{(m)}+b$ , $a^{(m)}=\sigma(z^{(m)})$
记 $X=[x^{(1)},x^{(2)},…,x^{(m)}]$ ,既每一列是一个样本，矩阵维数为 $n_x \times m$ 。 $z=[z^{(1)},z^{(2)},…,z^{(m)}]$ 既 $1\times m$ 的行向量。从而上式可写为 $z=w^T *X+[b,b,…,b]$ 。A=[a^{{(1)},a{(2)},…,a}{(m)}]。

z=np.dot(w.T,X)+b
a=\sigma(z)

7.3 向量化Logistic回归的梯度计算

回顾公式：
$\mathrm{d}w_1 =\frac{\partial J(w,b)}{\partial w_1}=\frac{1}{m}\sum\limits_{i=1}^m\mathrm{d}w_1^{(i)}=\frac{1}{m}\sum\limits_{i=1}^mx_1^{(i)}(a^{(i)}-y^{(i)})$
$\mathrm{d}w_2 =\frac{\partial J(w,b)}{\partial w_2}=\frac{1}{m}\sum\limits_{i=1}^m\mathrm{d}w_2^{(i)}=\frac{1}{m}\sum\limits_{i=1}^mx_2^{(i)}(a^{(i)}-y^{(i)})$
$\mathrm{d}b=\frac{\partial J(w,b)}{\partial b}=\frac{1}{m}\sum\limits_{i=1}^m\mathrm{d}b^{(i)}=\frac{1}{m}\sum\limits_{i=1}^m(a^{(i)}-y^{(i)})$
向量化
$A=[a^{(1)},a^{(2)},...,a^{(m)}]$
$Y=[y^{(1)},y^{(2)},...,y^{(m)}]$
所以, $\mathrm{d}z=A-Y$ .
$\mathrm{d}b = \frac{1}{m}\sum\limits_{i=1}^m(a^{(i)}-y^{(i)}) =np.sum(A-Y)$
$\mathrm{d}w = \frac{1}{m}Xdz^T$
$=\frac{1}{m}[x^{(1)},x^{(2)},...,x^{(m)}][\mathrm{d}z^{(1)},\mathrm{d}z^{(2)},...,\mathrm{d}z^{(m)}]^T$
$=\frac{1}{m}(x^{(1)}\mathrm{d}z^{(1)}+x^{(2)}\mathrm{d}z^{(2)}+...+x^{(m)}\mathrm{d}z^{(m)})$
Logistic回归的向量化伪代码

z = w^T*X + b = np.dot(w^T,X) + b
a = \sigma(z)
dz = A - Y
dw = 1/m*X*dz^T db = 1/m*np.sum(dz)
dw /=m, db/=m
w := w - \alpha * dw
b = b - \alpha * db

8. Python 中的Broadcasting

8.1 Broadcasting

Broadcasting是计算中对维数要求没有那么严格，可以自己调整维度以适应计算。

例子

示意矩阵

问题：计算每种食物中各成分的占比

import numpy as np
A = np.array([[56,0,4.4,68],
             [1.2,104,52,8],
             [1.8,135,99,0.9]])
cal = A.sum(axis=0)
percentage = A/cal.reshape(1,4)
print(100 * percentage)

Broadcasting维度不必严格要求，但是行或列必须有一个是相同的，python才能自己复制成合适维度的矩阵进行计算。

MATLAB中类似的是bsxfun函数。

8.2 编程小技巧

*尽量不要使用秩为1的数组

a = np.random.randn(5)

使用有明确维度的矩阵

a = np.random.randn(5,1)

可以使用reshape()来改变矩阵的维度

a.reshape(1,5)

可以使用assert()来声明你希望的矩阵维度

assert(a.shape == (1,5))

神经网络和深度学习WU Week2

神经网络和深度学习WU Week2

神经网络基础

1. 二分分类

2. Logistic回归

3. Logistic 回归——cost function(成本函数/代价函数)

4.梯度下降法

5.计算图（前向传播）及其导数计算（后向传播）

5.1 计算图

5.2 计算图的导数计算

6.Logistic回归中的梯度下降

6.1 单个样本的情况

6.2 $m$ 个样本的训练集

7.Vectorizaion（向量化）

7.1 向量化

7.2 向量化Logistic回归

7.3 向量化Logistic回归的梯度计算

8. Python 中的Broadcasting

8.1 Broadcasting

8.2 编程小技巧

神经网络和深度学习WU Week2

神经网络基础

1. 二分分类

2. Logistic回归

3. Logistic 回归——cost function(成本函数/代价函数)

4.梯度下降法

5.计算图（前向传播）及其导数计算（后向传播）

5.1 计算图

5.2 计算图的导数计算

6.Logistic回归中的梯度下降

6.1 单个样本的情况

6.2 个样本的训练集

7.Vectorizaion（向量化）

7.1 向量化

7.2 向量化Logistic回归

7.3 向量化Logistic回归的梯度计算

8. Python 中的Broadcasting

8.1 Broadcasting

8.2 编程小技巧

6.2 $m$ 个样本的训练集