《深度学习的数学》读书笔记
作者:[日]涌井良幸,[日]涌井贞美
译者:杨瑞龙
出版社:人民邮电出版社
出版时间:2019-04
将神经元的工作扩展,使之一般化。
一、简化神经元的图形
把神经元的图抽象简化如下:用箭头方向区分输入和输出。神经元的输出由两个箭头指出,其值是相同的。
为了与生物学的神经元区分开来,我们把经过这样简化、抽象化的神经元称为神经单元(unit)。
二、激活函数
我们把上节的点火式子的 单位阶跃函数一般化,得到:
这里的函数a是建模者定义的函数,称为激活函数(activation function)。x1、x2、x3是模型允许的任意数值,y是函数a能取到的任意数值。这个式(2)就是后面所讲的神经网络的出发点。
三、神经元和神经单元的区别
四、Sigmoid函数
激活函数的代表性例子是Sigmoid函数σ(z),其定义如下所示。
这里先来看看它的图形,Sigmoid函数σ(z)的输出值是大于0小于1的任意值。此外,该函数连续、光滑,也就是说可导。这两种性质使得Sigmoid函数很容易处理。
因为Sigmoid函数具有容易计算的漂亮性质,所以可将Sigmoid函数作为标准激活函数使用。
五、偏置
再来看一下激活函数的式(2)。这里的θ称为阈值,在生物学上是表现神经元特性的值。从直观上讲,θ表示神经元的感受能力,如果θ值较大,则神经元不容易兴奋(感觉迟钝),而如果值较小,则神经元容易兴奋(敏感)。
然而,式(2)中只有θ带有负号,这看起来不漂亮。数学不喜欢不漂亮的东西。另外,负号具有容易导致计算错误的缺点,因此,我们将-θ替换为b。
经过这样处理,式子变漂亮了,也不容易发生计算错误。这个b称为偏置(bias)。
将式(4)作为标准使用。另外,此时的加权输入z(1-2节)如下所示。
式子(4)、(5)非常重要,是神经网络的出发点。
六、内积
我们将式(5)像下面这样整理一下。
这里增加了一个虚拟的输入,可以理解为以常数1作为输入值(下图)。
于是,加权输入z可以看作下面两个向量的内积。
(w1, w2, w3, b)(x1, x2, x3,1)
计算机擅长内积的计算,因此按照这种解释,计算就变容易了。