1.2 神经网络基础3

续前一节 1.2 神经网络基础2

7. 计算图(Computation Graph)

神经网络的计算都是按照前向传播过程计算出神经网络的输出,紧接着用反向传播过程来计算出对应的梯度或者导数。计算图就解释了为什么神经网络是这样的一种组织形式。通过举例来阐释计算图,即计算过程。举一个比logistic回归更简单、非正式的例子来说明:计算J(a,b,c)=3(a+bc)这个函数实际上有三个步骤:

第一步:u = bc
第二步:v = a + u
第三步:J = 3v

通过上述步骤,可以计算出J(a,b,c)的值,将这个计算过程反向执行,即为梯度(导数)计算过程。

图1 计算图示例

8. 计算图的导数计算(Derivatives with a Computation Graph)

本节课主要介绍如何利用计算图进行函数J的导数计算。
在反向传播算法的术语中,如果你想计算最后输出变量的导数,这个变量就是你最关心的变量,在图2中可以看到,这个变量就是J,这个计算函数J关于变量v的导数的过程(dJ/dv=?)就是一步反向传播的过程。在流程图中就体现为一个反向步。


图2 第一步反向步执行过程解析

那么,我们可以继续思考,如果对a增加一定数值,函数J的数值会发生什么变化呢?

修改a的值会根据计算流程图将改变值传递到最右边,即a的数值变化,最终会反应到函数J的结果中。这个计算过程可以理解为:a->v->J,这个微分传导的过程在微积分中称为链式法则(Chain rule)

计算最终输出变量的导数就是计算d输出变量关于某个变量的导数。那么这个导数的公式在代码中应该用什么样的变量名来表示呢?Andrew给出了一种命名方案:根据函数关于哪个变量进行求导来命名,如:求最终输出变量J关于变量v的导数,在代码中我们可以用dv来表示,在本例中,dv=3;同理,求最终输出变量J关于变量a的导数,在代码中我们可以用da来表示,在本例中,da=3,其他情况以此类推。

图3 部分反向传播算法计算过程示例及代码中变量命名规范

本节课的核心要点是:当计算所有这些导数时,最有效的方法是根据计算流程图从右到左计算,如下图中的红色箭头的方向:

图4 导数计算过程示例

9. logistic回归中的梯度下降法(Logistic Regression Gradient Descent)

本节课主要介绍怎样计算偏导数来实现logistic回归的梯度下降法,它的核心关键点是用来实现logistic回归的梯度下降法中的几个重要公式。但在本节视频中,将使用计算流程图来计算导数。用计算流程图来推导logistic回归的梯度下降算法有点大材小用了,但为了后面能够更加深入的了解神经网络算法,这里采用了计算流程图的方式来分析logistic回归的梯度下降法执行过程。

图5 logistic回归的损失函数计算流程图

要想计算损失函数L的偏导数,首先需要从图6中的计算流程图最右侧的节点往回退一步,计算最终结果损失函数L关于变量a的导数,得到结果da后,再回退一步,计算L关于z的导数dz,最后回退到初始变量,计算L关于w1的导数dw1、L关于w2的导数dw2和L关于b的导数b。

图6 logistic回归的梯度下降法计算过程

接下来根据梯度下降法算法,计算下一个能够使损失函数更小的w1、w2和b的组合,计算公式如下:

10. m个样本的梯度下降(Gradient Descent on m examples)

在本节课中,主要讲解了如何计算m个样本的训练集的整体成本函数J(w,b)的梯度下降计算过程,并使用Python伪代码进行说明。

在上一节课中,我们已经计算出了单个样本的损失函数的导数,而m个样本的训练集整体的成本函数J(w,b)的计算公式已经在上一篇文章第3节中给出,也就是说,成本函数J的导数就是所有样本损失函数L的导数的平均数,这个分析过程如图7所示:

图7 m个样本的梯度下降算法实现过程分析

根据上述分析,可以得出图8所示的Python伪代码:

图8 m个样本的梯度下降算法伪代码

从伪代码中可以看出,梯度下降法的一次迭代需要经过两层嵌套的循环计算才能完成,循环的时间复杂度为O(m*n),其中,m代表训练集中样本个数,n代表一个样本中特征的个数。

当实现深度学习算法时,在代码中显式的使用for循环会使算法非常低效,为了解决在深度学习算法中对于大量训练集的学习效率问题,引入了向量化技术,该技术可以避免在深度学习算法中使用for循环,进而提高运算效率。

注意:本节课中,每个样本的特征个数假设为两个,在实际应用过程中也可能是多个,每个特征都会对应一个变量w,变量b为每个样本对应一个。

11. 向量化(Vectorization)

本质上,向量化是消除代码中显示for循环语句的艺术。
训练集数据量越大,深度学习算法才能够更加优越。这就需要我们的深度学习算法运算速度足够快,因此,在深度学习领域,完成向量化的能力已经变成一个关键的技能。

本节课主要以两个1,000,000维矩阵相乘为例,在Python中用for循环和向量化的方法实现,比较两种方法的运行耗时,从而验证了使用向量化的方法要比显示的for循环的运算性能更好,下图为本人根据视频教程在Jupyter Notebook中做的实验截图:

图9 向量化方法与显式for循环方法运算性能比较

深度学习一般是在GPU(图像处理单元,Graphics Processing Unit)中运行的,但在本次课程中的demo是运行在Jupyter Notebook中的,即运行在CPU中,这就说明GPU和CPU均有并行化的指令(也称为SIMD指令),也就是一条指令中可以同时处理多数据流。

我们可以通过numpy.functions来调用这些方法,避免Python代码中显式调用for循环,从而能够更好地利用CPU或者GPU的并行机制。

经验法则:只要有其他可能,就不要使用显示的for循环。
Whenever possible, avoid explicit for-loops. ——Andrew Ng

12. 向量化的更多例子(More Vectorization Examples)

用内置函数或者其他方法代替显式for循环。

本节课首先介绍了几个numpy库中常用的一些方法,如:矩阵的每个元素的指数计算、对数计算、绝对值计算等。具体的方法写法如下图所示:

图10 常用numpy库方法

利用numpy库中的内置方法对第10节中编写的m个样本的训练集的梯度下降法算法进行优化,最终,我们可以将两层嵌套的循环中的内层for循环优化掉,即将样本内特征向量的遍历被优化了。优化过程及结果如下图所示:

图11 用numpy内置函数优化梯度下降法算法

本节课优化完成后的算法效率得到了大大的提高,但仍然还有一层for循环用来遍历训练集中的样本,那么如何优化这个循环呢?我们将在第14节中来见证这个奇迹的时刻!

13. 向量化logistic回归(Vectorizing Logistic Regression)

本节课主要讲的内容是:向量化如何在logistic回归中应用,这样就能做到在一次计算过程中同时处理整个m个样本的训练集。那么在正向传播步骤的一次迭代的向量化实现,应该如何做呢?

  • 首先,为了达成这个目的,我们需要将m个样本各自的特征向量x(i)作为一个个列向量合并成一个大的矩阵,记为X;
  • 然后,将所有的z(i)也合并成一个行向量,记为Z,Z=[z(1) z(2) ... z(m)];
  • 那么,计算m次z(i)的过程就可以转化为一次m维的行向量wT与nxm维矩阵的乘积与1m维行向量[b b ... b]之和,即:Z=wTX+[b b ... b];
  • 同理,可以将m个预测结果a(i)整合为一个m维的行向量,记为A,A=[a(1) a(2) ... a(m)]=sigma(Z);

在Python中,m维的行向量+实数b将会被自动转化为m维的行向量+1*m维的行向量[b b ... b]。这个操作在Python中称为广播(Broadcasting)。

图12 logistic回归正向传播一次迭代的向量化

14. 向量化logistic回归的梯度输出(Vectorizing Logistic Regression's Gradient Computation)

本节课的主要内容是:运用向量化来计算m个样本的训练数据集的梯度。

首先,根据第13节中的讲解,我们可以将m个dz(i)=a(i)-y(i)合并到一次计算过程中:

dZ=A-Y=[a(1)-y(1) a(2)-y(2) ...]

这样我们就可以将第12节中的遍历m个样本的for循环进行向量化,从而去除另外一个显式for循环。

图13

接下来,将第13节和本节内容结合起来,整体来看下logistic回归的梯度下降法一次迭代优化后的伪代码:

图14

到此为止,我们已经对logistic回归的梯度下降法一次迭代的计算过程全部进行了向量化,但是,为了得到尽可能小的成本函数J,我们还是需要通过for循环来进行多次的梯度下降法的迭代,从而得到合适的w和b的组合。

15. Python中的广播(Broadcasting in Python)

本节课中主要讲解了Python中的广播(Broadcasting)是怎样运作的,这个技术同样也是为了能够提高代码的效能。

图15
图16
图17

16. 关于Python/numpy向量的说明(A note on python/numpy vectors)

图18

17. Jupyter/Ipython 笔记本的快速指南

本节课主要讲解了在Coursera中的IPython的一些常用的功能。其中,

  • 灰色块表示代码块;
  • 作业的代码需要写在代码开始和代码结束注释之间才算有效;
  • 执行一个单元格内的代码有两种方式:一种是右键选中单元格,选择【Run Cells】;另一种方法是使用快捷键,在Windows操作系统中,默认快捷键为Shift+Enter;
  • 双击文本单元格可以查看文本单元格的Markdown源码,运行单元格可以恢复文本预览模式;
  • 如果出现断网或者其他错误导致内核(Kernel)宕机,可以通过工具栏中的重启功能进行重启操作;
  • 要尽可能运行说明文档中的所有单元格,因为可能有部分变量是在上面的单元格中定义的,而我们在后续的单元格执行过程中需要用到这些变量。

18. (选修)logistic成本函数的解释(Explanation of logistic regression cost function )(Optional)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,539评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,911评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,337评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,723评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,795评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,762评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,742评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,508评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,954评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,247评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,404评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,104评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,736评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,352评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,557评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,371评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,292评论 2 352

推荐阅读更多精彩内容