神经网络和深度学习WU Week3——浅层神经网络

1. 符号约定

  • [],中括号表示与层相关,如[1]表示第一层,以此类推,输入层表示为[0]层,一个神经网络的层数不包括输入层;
  • (),仍然表示和样本相关,如(1)表示第一个样本点;
  • 每一层都计算 za,最后输出层计算出来的a^{[]}就是输出\hat{y};
  • 特征矩阵 X,参数W,b,类似的,W^{[2]}表示第二隐层的参数矩阵;
  • a^{[0]} = x,即特征向量(自变量);
  • a^{[1]}_i,第一个隐藏层第i个节点的输出值;
  • 隐藏层与输出层有参数,如隐藏层的参数W^{[1]},b^{[1]}

2. 只有一个隐层的神经网络

2.1单隐层神经网络

  • 输入层
  • 输出层
  • 隐藏层,之所以叫隐藏层是因为中间层的数值在训练集看不到。
    如下图所示,相关符号的意义参见符号规定节。


    单隐层神经网络图

2.2 计算神经网络的输出——单样本点

图例中的隐藏层有4个节点,在每个节点处进行如下的计算。


节点计算示意图
  • 计算步骤(以第一个节点为例,第几个节点只需要修改上标[]内的对应数值)
    • Step1 计算z^{[1]}_i = {w^{[1]}_1}^T \bullet x + b^{[1]}_1;
    • Step2 利用激活函数(sigmoid函数),计算a^{[1]}_1 = \sigma(z^{[1]}_1)
      即得到如下的计算式
      \begin{array}{l}{z_{1}^{[1]}=w_{1}^{[1] T} x+b_{1}^{[1]}, a_{1}^{[1]}=\sigma\left(z_{1}^{[1]}\right)} \\ {z_{2}^{[1]}=w_{2}^{[1] T} x+b_{2}^{[1]}, a_{2}^{[1]}=\sigma\left(z_{2}^{[1]}\right)} \\ {z_{3}^{[1]}=w_{3}^{[1] T} x+b_{3}^{[1]}, a_{3}^{[1]}=\sigma\left(z_{3}^{[1]}\right)} \\ {z_{4}^{[1]}=w_{4}^{[1] T} x+b_{4}^{[1]}, a_{4}^{[1]}=\sigma\left(z_{4}^{[1]}\right)}\end{array}
  • 向量化
    z^{[1]} = \begin{pmatrix}z^{[1]}_1\\z^{[1]}_2\\z^{[1]}_3\\z^{[1]}_4\end{pmatrix},即为4 \times 1的列向量
    W^{[1]}=\begin{pmatrix}{w_{1}^{[1] T}}\\ {w_{2}^{[1] T}} \\ {w_{3}^{[1] T} } \\ {w_{4}^{[1] T}}\end{pmatrix} = (w^{[1]}_1,w^{[1]}_2,w^{[1]}_3,w^{[1]}_4)^T
    b^{[1]} = \begin{pmatrix}b^{[1]}_1\\b^{[1]}_2\\b^{[1]}_3\\b^{[1]}_4\end{pmatrix}
    a^{[1]} = \begin{pmatrix}a^{[1]}_1\\ a^{[1]}_2\\ a^{[1]}_3\\ a^{[1]}_4\end{pmatrix}
    所以有
    z^{[1]} = W^{[1]}x + b^{[1]}
    a^{[1]} = \sigma(z^{[1]})
    考虑到x可以记作a^{[0]},从而有如下单隐层神经网络的计算公式:

\begin{array}{l}{z^{[1]}=W^{[1]} a^{[0]}+b^{[1]}} \\ {a^{[1]}=\sigma\left(z^{[1]}\right)} \\ {z^{[2]}=W^{[2]} a^{[1]}+b^{[2]}} \\ {a^{[2]}=\sigma\left(z^{[2]}\right)}\end{array}

2.3 计算单隐层神经网络的输出——多样本训练集

  • 如果训练集有m个样本,需要对每个样本都计算上面4个式子。

for i=1 to m:
\begin{aligned} z^{[1](i)} &=W^{[1]} x^{(i)}+b^{[1]} \\ a^{[1](i)} &=\sigma\left(z^{[1](i)}\right) \\ z^{[2](i)} &=W^{[2]} a^{[1](i)}+b^{[2]} \\ a^{[2](i)} &=\sigma\left(z^{[2](i)}\right) \end{aligned}

  • 向量化
    仍然采用前面的记号
    X = [x^{(1)},x^{(2)},...,x^{(m)}],即为n_x \times m矩阵,一列代表一个样本。
    Z^{[1]} = [z^{[1] (1)},z^{[1] (2)},...,z^{[1] (m)}],即为4 \times m矩阵,一列代表一个样本在不同节点的z值。
    A^{[1]} = [a^{[1] (1)},a^{[1] (2)},...,a^{[1] (m)}],即为4 \times m矩阵,一列代表一个样本在不同节点的a值。
    即一列是同一层不同的节点,一行是同一层同一节点的不同样本。
    从而有向量化结果:

\begin{aligned} Z^{[1]} &=W^{[1]} X+b^{[1]} \\ A^{[1]} &=\sigma\left(Z^{[1]}\right) \\ Z^{[2]} &=W^{[2]} A^{[1]}+b^{[2]} \\ A^{[2]} &=\sigma\left(Z^{[2]}\right) \end{aligned}

考虑到X = A ^{[0]},所以可以写成如下对称的形式:

\begin{aligned} Z^{[1]} &=W^{[1]} A^{[0]}+b^{[1]} \\ A^{[1]} &=\sigma\left(Z^{[1]}\right) \\ Z^{[2]} &=W^{[2]} A^{[1]}+b^{[2]} \\ A^{[2]} &=\sigma\left(Z^{[2]}\right) \end{aligned}

3 激活函数

3.1 激活函数

在前面的推导中,我们的激活函数一直用的 sigmoid函数\sigma(z) = \frac{1}{1+e^{-z}},还有其他的激活函数g(z)可以用(一般是非线性函数,后面会解释为什么是非线性函数)。

  • 双曲正切函数(hyperbolic tangent function)
    a = tanh(z) = \frac{e^{z}-e^{-z}}{e^{z}+e^{-z}},函数值在-1与1之间,函数图像为
    双曲正切函数
  • 在隐藏层,如果激活函数取为双曲正切函数g(z) = tanh(z)效果基本都比sigmoid函数好。因为双曲正切函数的均值是0,从而有类似数据中心化的作用,从而让下一层的学习更方便一点。所以几乎大部分情况都用此激活函数
  • 有一个例外,二分类的输出层用sigmoid函数作为激活函数效果更好。

\begin{aligned} Z^{[1]} &=W^{[1]} X+b^{[1]} \\ A^{[1]} &=g^{[1]}(z)=tanh\left(Z^{[1]}\right) \\ Z^{[2]} &=W^{[2]} A^{[1]}+b^{[2]} \\ A^{[2]} &= g^{[2]}(z)=\sigma\left(Z^{[2]}\right) \end{aligned}

  • sigmoid函数和tanh函数都有的一个\color{red}{缺点}就是如果z非常大或者非常小,导数就接近于0,从而拖慢梯度下降方法。另一个常用的激活函数就是ReLU函数(rectified linear unit)a = \max\{0,x \},函数图像为

    ReLU函数图像

    • z>0,导数为1
    • z<0,导数为0
    • z=0,导数不存在,可以定义为0或1,并不影响
  • 选择激活函数的经验

    • 二分类,即输出为0或1,用sigmoid函数;
    • 其他都用ReLU函数。ReLU已经成为激活函数的默认选择了,尤其如果你不知道用什么激活函数那就用ReLU函数!
  • ReLU函数的\color{red}{缺点}就是z<0是导数为0,为此有leaky ReLU函数,修改z<0是函数取值不为0,例如可以定义为0.01z,即z = max \{0.01z, z \}。函数图像为

    leaky ReLu函数图像

  • ReLU与leaky ReLU的\color {red}{优点}就是没有斜率离0很远,从而梯度类方法很快。

3.2 为什么需要非线性激活函数?

  • 为什么在神经网络中不简单的使用线性函数作为激活函数?让我们来看一下。

\begin{aligned} Z^{[1]} &=W^{[1]} X+b^{[1]} \\ A^{[1]} &=g^{[1]}(z)=Z^{[1]} \\ Z^{[2]} &=W^{[2]} A^{[1]}+b^{[2]} \\ A^{[2]} &= g^{[2]}(z) = Z^{[2]} \end{aligned}

从而有
A^{[2]} = Z^{[2]} = W^{[2]} A^{[1]}+b^{[2]} = W^{[2]} (W^{[1]} X+b^{[1]})+b^{[2]}
=W^{[2]} W^{[1]} X+(W^{[1]}b^{[1]}+b^{[2]}) = W^{'}x +b^{'}
所以无论你的神经网络有多少层,实际上效果仍然是去掉中间所有隐层的线性回归,类似的,如果g^{[z]} = z, g^{[2]}(z) = \sigma(z),那么无论有多少层都效果都是logistic回归。

  • 有一种情况可以使用线性函数,就是回归问题(预测值是实数)的输出层,此时的隐藏层仍然不用线性函数。

3.3 激活函数的导数

  • Sigmoid激活函数
    sigmoid函数

    实际上,前面已经计算过了
    \frac{\mathrm{d}g(z)}{\mathrm{d}(z)} = g(z)[1-g(z)] = a(1-a)
    • z比较大时g(z) \approx 1,从而\frac{\mathrm{d}g(z)}{\mathrm{d}(z)} \approx 0,与图像吻合;
    • z比较小时g(z) \approx 0,从而\frac{\mathrm{d}g(z)}{\mathrm{d}(z)} \approx 0,与图像吻合;
      z = 0g(z) =\frac{1}{2},从而\frac{\mathrm{d}g(z)}{\mathrm{d}(z)} =\frac{1}{4},与图像吻合。
    • \color {red}{优点}只要计算出a = g(z)的值就能很快算出来导数为g^{'}(z) = a(1-a)
  • tanh激活函数
    tanh激活函数

    tanh(z) = \frac{e^{z}-e^{-z}}{e^{z}+e^{-z}}
    tanh^{'}(z) = \frac{\mathrm{d}tanh(z)}{\mathrm{d}z} = \frac{(e^{z}+e^{-z})^2-(e^{z}-e^{-z})^2}{(e^{z}+e^{-z})^2}
    = 1-tanh^{2}(z) = 1 - a^{2}
    • z比较大时g(z) \approx 1,从而\frac{\mathrm{d}g(z)}{\mathrm{d}(z)} \approx 0,与图像吻合;
    • z比较小时g(z) \approx -1,从而\frac{\mathrm{d}g(z)}{\mathrm{d}(z)} \approx 0,与图像吻合;
    • z = 0g(z) =0,从而\frac{\mathrm{d}g(z)}{\mathrm{d}(z)} =1,与图像吻合;
    • \color {red}{优点}只要计算出a = g(z)的值就能很快算出来导数为g^{'}(z) = 1-a^{2}
  • ReLU激活函数与Leaky ReLU激活函数
    • ReLU激活函数
      ReLU与leaky ReLU激活函数

      g^{'}(z) = \{ \begin{aligned} 1; z>0 \\ 0;z<0 \\无定义;z=0 \end{aligned}
      事实上,借助一次梯度的概念,可以定义为
      g^{'}(z) = \{ \begin{aligned} 1; z \geq 0 \\ 0;z<0 \end{aligned}
    • leaky ReLU 激活函数
      g^{'}(z) = \{ \begin{aligned} 1; z>0 \\ 0.01;z<0 \\无定义;z=0 \end{aligned}
      事实上,借助一次梯度的概念,可以定义为
      g^{'}(z) = \{ \begin{aligned} 1; z \geq 0 \\ 0.01;z<0 \end{aligned}

4. 神经网络的梯度下降法

  • 目的:学习神经网络的参数

  • 参数:W^{[1]} \in (n^{[1]},n^{[0]}),b^{[1]} \in (n^{[1]},1),W^{[2]} \in (n^{[2]},n^{[1]}),b^{[1]} \in (n^{[2]},1)

  • cost function: J(W^{[1]} ,W^{[2]} ,b^{[1]} ,b^{[2]} )= \frac{1}{m}\sum_{n=1}^mL(\hat{y},y) =\frac{1}{m}\sum_{n=1}^mL(a^{[2]},y)

  • 前向传播(Forward Propagation):
    \begin{aligned} Z^{[1]} &=W^{[1]} X+b^{[1]} \\ A^{[1]} &=g^{[1]}(Z^{[1]})\\ Z^{[2]} &=W^{[2]} A^{[1]}+b^{[2]} \\ A^{[2]} &= g^{[2]}(Z^{[2]}) \end{aligned}

  • 反向传播(Backward Propagation):

    • \mathrm{d}Z^{[2]}= A^{[2]} - Y,

    • \mathrm{d}W^{[2]}= \frac{1}{m} \mathrm{d}Z^{[2]} \bullet A^{[1] T}

    • \mathrm{d}b^{[2]} = \frac{1}{m}np.sum(\mathrm{d}W^{[2]},axis=1(沿水平方向相加),keepdims=True)
      防止出现奇怪的无秩(n^{[2]},)保证仍然是矩阵,维数为(n^{[2]},1)

    • \mathrm{d}Z^{[1]}=\mathrm{d}A^{[1]} \bullet g^{[1] '}(Z^{[1]}) = W^{[2] T} \bullet \mathrm{d}Z^{[2]} * g^{[1] '}(Z^{[1]}),

      • 上式第一个乘积是矩阵乘积,得到(n^{[1]},m)维矩阵,g^{[1] '}(Z^{[1]})(n^{[1]},m)维,所以后面的是逐个元素乘积。
    • \mathrm{d}W^{[1]}= \frac{1}{m} \mathrm{d}Z^{[1]} \bullet A^{[0] T} = \frac{1}{m} \mathrm{d}Z^{[1]} \bullet X^{T}

    • \mathrm{d}b^{[1]} =np.sum(\mathrm{d}Z^{[1]},axis=1,keepdims = True),keepdims参数可以不用,但为了防止出现秩为1的奇怪数组,需用reshape命令。

    随后迭代
    W^{[1]} =W^{[1]} - \alpha \mathrm{d}W^{[1]}
    W^{[2]} =W^{[2]} - \alpha \mathrm{d}W^{[2]}
    b^{[1]} =b^{[1]} - \alpha \mathrm{d}b^{[1]}
    b^{[2]} =b^{[2]} - \alpha \mathrm{d}b^{[2]}

  • 小结:正向与反向传播的主要公式如下


    正向与反向传播主要公式

5. 参数初始化

  • Logistic回归可以把参数初始化为0
  • 但除Logistic回归外,一般参数会随机初始化,而不是初始化为0。
    如果把神经网络的全部参数都初始化为0,再使用梯度下降法,则会失效。
    此时会出现完全对称话,影响主要是权重参数W^{[1]},W^{[2]},事实上,如果把偏置参数b^{[1]},b^{[2]}都初始化为0是可以的。但是对权重参数如果都初始化为0,那么无论你的隐层有多少个节点,事实上它们计算的都是同一个函数,和只有一个节点是一样一样的,如下图所示:
    权重初始化为0示意图
  • 解决方法
W^[1] = np.random.randn(n^[1],n) * 0.01
b^[1] = np.zeros(n^[1],1)
W^[2] = np.random.randn(n^[2],n^[1]) * 0.01
b^[2] = np.zeros(n^[2],1)

之所以要乘以一个很小的0.01,是考虑到如果激活函数使用的是sigmoid函数或者tanh函数,W很大时,此时梯度下降算法很慢,会减慢学习速度。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,427评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,551评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,747评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,939评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,955评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,737评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,448评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,352评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,834评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,992评论 3 338
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,133评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,815评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,477评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,022评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,147评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,398评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,077评论 2 355

推荐阅读更多精彩内容