1.神经网络前传——感知机
感知机作为神经网络的起源,由Frank Rosenblatt(美国)在1957 年提出。感知机的构造与神经网络中的神经元类似,理解感知机的思想对后续了解神经网络有很重要的帮助。
感知机的逻辑形状类似于生物的神经系统,由神经元与神经元之间连接构成。感知机的节点包含激活函数,用来处理节点收到的信息(激活函数详见附录),类似于神经系统的神经元;节点与节点之间由边连接,边包含权重等信息,类似于神经系统中神经细胞的突触。具体类比如下图:
每个节点接收到连接他的相邻节点传来的信息作为输入,在上图中神经元B接受来自于A1、A2的输入x1、x2,在输入信号分别乘以对应边上的权重后求和,如果总和超过某个阈值,则该神经元被激活。这里将这个阈值用表示。感知机的数学公式如下:
NOTE:
感知机的输入都有各自的权重,权重越大,意味着这个输入对该神经元的状态影响越大。而后面的神经网络的学习,就是在不断调优寻求最佳权重的过程。
2.用感知机思想实现逻辑电路
我们来回顾一下离散数学。这里用感知机的思想去实现与门、或门、与非门、异或门是为了更切实的体验感知机的思想,并形象地展现权重和偏置在神经网络中作用的作用,最后我们会引入激活函数的概念,并在下一章“神经网络”中进行详细介绍。
2.1与门
与门真值表
x1 | x2 | y |
---|---|---|
0 | 0 | 0 |
0 | 1 | 0 |
1 | 0 | 0 |
1 | 1 | 1 |
如果我们用代码实现逻辑电路与门、或门、与非门、异或门异常简单。但此处我们引入权重与偏置等概念,使用感知机的思想实现与门、或门、与非门、异或门。
我们给x1、x2分别乘以各自边上的权重再求和,最后加上偏置量等于输出y。
与门代码实现:
import numpy as np
def AND(x1, x2):
x = np.array([x1, x2])
w = np.array([0.5, 0.5])
b = -0.7
tmp = np.sum(w*x) + b
if tmp <= 0:
return 0
else:
return 1
2.2或门
或门真值表
x1 | x2 | y |
---|---|---|
0 | 0 | 0 |
0 | 1 | 1 |
1 | 0 | 1 |
1 | 1 | 1 |
或门代码实现:
import numpy as np
def OR(x1, x2):
x = np.array([x1, x2])
w = np.array([0.5, 0.5])
b = -0.2
tmp = np.sum(w*x) + b
if tmp <= 0:
return 0
else:
return 1
2.3与非门
与非门真值表
x1 | x2 | y |
---|---|---|
0 | 0 | 1 |
0 | 1 | 1 |
1 | 0 | 1 |
1 | 1 | 0 |
与非门代码实现:
import numpy as np
def NAND(x1, x2):
x = np.array([x1, x2])
w = np.array([-0.5, -0.5])
b = 0.7
tmp = np.sum(w*x) + b
if tmp <= 0:
return 0
else:
return 1
2.3异或门
异或门真值表
x1 | x2 | y |
---|---|---|
0 | 0 | 0 |
0 | 1 | 1 |
1 | 0 | 1 |
1 | 1 | 0 |
异或门是比较特殊的逻辑门,因为观察异或门的真值表可以发现,他的true值分布是非线性的。在前面三个逻辑门中,如果以x1为横轴,以x2为纵轴,true值和false值可以用一条直线来区分开来,以或门为例:
分割true值与false值的线性函数为:
然而异或门的真值不是以上述这种方式分布,所以用单层感知机无法实现异或门。我们在离散数学中都学到过异或门可以通过与门、或门以及非与门组合实现,因此我们使用多层感知机来实现异或门。
与门代码实现:
def XOR(x1, x2):
s1 = NAND(x1, x2)
s2 = OR(x1, x2)
y = AND(s1, s2)
return y
此处多层感知机就是神经网络的雏形,每个神经元的输入都有各自不同的权重,每个神经元都有自己的激活函数以及偏置量。最终的输出神经元就是所要的结果。
2.神经网络
我们已经了解了感知机的基本概念与结构,感知机既有优点又有缺点。优点是感知机理解起来简单容易,在遇到复杂问题上,感知机理论上是可以使用并解决问题的。但感知机最最致命的缺点就是所有的权重需要人工确认,例如我们实现逻辑门时,权重是由人为确定。在处理简单问题时,人工参与确认权重可行,一旦问题复杂,所用的感知机神经元数量庞大,结构复杂时,人工确认权重就变得困难。因此我们进一步探索神经网络,神经网络提供了一套机器自己确定权重的方法(但并非所有参数都可以自己自动决定,神经网络中一些超参数依旧需要人工确定。超参数将会在后续分享中提及)
这一节将大致介绍神经网络。这里我们默认神经网络的权重已经获取到合适的值。我们仅仅使用神经网络进行分类。神经网络每个神经元的权重学习将在下一节分享中详述。
2.1神经网络图解
此处我们构建一个三层神经网络,用来说明神经网络的基本结构。三层神经网络结构如下图:
神经网络说明:
层说明:上图展示的神经网络为一个三层的神经网络(实际上有4层,但是第一层是从0开始算起,因此称为三层神经网络)图中由x1,x2组成的神经网络层是第0层,称作输入层,由y1,y2组成的神经网络层是第3层,称作输出层。夹在中间两层的是隐藏层。
参数说明:边上的w为权重,b为每层的偏置量。w是由参数组成的二维数组。b是由常数组成的数组,也就是说每一个神经元接收到的偏置量可以不一样。
函数说明:h(x)为激活函数,激活函数详见 附录 零食一:激活函数。
2.2神经网络的运算
总体计算流程:输入层的神经元的输入值乘以每条边上的权重,然后传递给下一个神经元,在下一个神经元上将各个输入以及偏置量b求和,总和为a。z = h(a),h()为激活函数。z作为本神经元的输出传递给下一个神经元。
- 输入:输入层是一系列输入神经元,我们可以将输入作为一个一维数组来看待。后续批处理的时候输入是分批输入,输入可以抽象为二元数组。
- 权重:权重可以抽象为二维数组,权重二维数组的第一维的形状必须和输入层(上一层的输出)的第二维的形状相同。
- 中间结果:中间结果是由上一层的输入乘以权重加上偏置计算得出的。可以抽象为一个一维数组(在批量处理中是二维数组)具体计算参见 附录 零食二:矩阵乘法
- 输出结果:输出结果由一系列输出层的神经元组成。根据不同目标会有不同个数的神经元。例如我们在手写数字分类的神经网络中,输出元有10个,分别代表0~9的概率。
2.3三层神经网络的代码实现
此处我们将权重的学习跳过,将权重信息写死在程序当中。权重的学习将放置在后续的分享当中。
import numpy as np
def sigmoid(x):
return 1 / (1 + np.exp(-x))
def identity_function(x):
return x
def init_network():
network = {}
network['W1'] = np.array([[0.1, 0.3, 0.5], [0.2, 0.4, 0.6]])
network['b1'] = np.array([0.1, 0.2, 0.3])
network['W2'] = np.array([[0.1, 0.4], [0.2, 0.5], [0.3, 0.6]])
network['b2'] = np.array([0.1, 0.2])
network['W3'] = np.array([[0.1, 0.3], [0.2, 0.4]])
network['b3'] = np.array([0.1, 0.2])
return network
def forward(network, x):
W1, W2, W3 = network['W1'], network['W2'], network['W3']
b1, b2, b3 = network['b1'], network['b2'], network['b3']
a1 = np.dot(x, W1) + b1
z1 = sigmoid(a1)
a2 = np.dot(z1, W2) + b2
z2 = sigmoid(a2)
a3 = np.dot(z2, W3) + b3
y = identity_function(a3)
return y
network = init_network()
x = np.array([1.0, 0.5])
y = forward(network, x)
print(y)
2.4输出层的设计
在上面的代码实现中我们发现我们最后使用的identity_function是简单的只返回输入x,相当于什么也没做,这种函数叫做恒等函数。这一小节我们讨论下输出层的设计。
神经网络可以用在分类问题与回归问题上,需要根据不同情况来使用不同的激活函数,一般而言,回归问题用恒等函数,分类问题用softmax函数。
2.4.1softmax函数
softmax函数的数学表示如下:
说明:假设输出层有N个神经元,在第k个神经元输出yk,因为分类问题需要的是每个分类的概率,softmax是一个大于0小于1的分数,softmax输出值的总和为1,所以使用softmax作为输出层的激活函数来处理分类问题。
2.4.2softmax函数的实现
import numpy as np
def softmax(x):
exp_x = np.exp(x)
sum_exp_x = np.sum(exp_x)
y = exp_x / sum_exp_x
return y
a = np.array([0.3, 2.9, 4.0])
print(softmax(a))
2.4.3softmax中的陷阱
我们来回忆一下的图像,当x趋于0时,y值趋于负无穷。这种情况下计算机会溢出。如果我们分类函数用如上的softmax作为输出层的激活函数,遇到一个概率判断很小的分类,就爆炸了。。。那如何避免这个数学上的陷阱呢?解决方案非常粗暴简单,给分子、分母加个不为0的常数。改进后的softmax的数学表示如下:
说明:分子、分母同时乘以一个不为零的常数,运算结果不会改变。经过如上变换,只需要给输出加上一个不为零的常数即可。为了防止计算机溢出。我们减去输出层的神经元最大的输出项作为C'
2.4.4改进后的softmax代码实现
import numpy as np
def softmax(x):
c = np.max(x)
exp_x = np.exp(x - c)
sum_exp_x = np.sum(exp_x)
y = exp_x / sum_exp_x
return y
a = np.array([0.3, 2.9, 4.0])
print(softmax(a))
附录:
附录附上一些在感知机中可能需要了解的数学知识。如果你的大学数学记忆犹新可以不看这部分附录。如果你和我一样大学数学全部还给老师的话,可以在此复习一下。别怕!所需要的高数知识非常简单。
零食一:激活函数
将输入信号(多于一个)进行一番运算转换为输出信号,这种函数统称为激活函数。我们来看几个常用激活函数的例子:
1.阶跃函数
NOTE:
w:边上的权重
b:偏置量
说明:
此神经元接受两个输入信号,x1,x2,两个输入信号分别乘以两条边上的权重w1,w1求和再加上偏置量b作为最终阶跃函数判断的依据。如果和小于0则阶跃函数输出0,如果和大于0则阶跃函数输出1。由于最终输出为0或1,在平面直角坐标系中的图像像台阶一样,因此称之为阶跃函数。
阶跃函数的代码实现:
import numpy as np
import matplotlib.pylab as plt
def step_function(x):
return np.array(x > 0, dtype=np.int)
X = np.arange(-5.0, 5.0, 0.1)
Y = step_function(X)
plt.plot(X, Y)
plt.ylim(-0.1, 1.1)
plt.show()
阶跃函数图像:
2.SIGMOD函数
SIGMOD函数是神经网络中较为常用的一个激活函数,SIGMOD函数的数学表示如下:
NOTE:
w:边上的权重
b:偏置量
相对于阶跃函数,SIGMOD函数曲线更加平滑,而且范围也是在(0,1)之间,SIGMOD函数在神经网络之中有很特殊的意义。在某些场景下SIGMOD函数的输出更符合需求,例如我们需要求各个输出神经元对应的概率。在这种情况下,我们需要的是一个0到1之间的实数,而非0/1的二元输出。
SIGMOD函数的代码实现:
import numpy as np
import matplotlib.pylab as plt
def sigmoid(x):
return 1 / (1 + np.exp(-x))
X = np.arange(-5.0, 5.0, 0.1)
Y = sigmoid(X)
plt.plot(X, Y)
plt.ylim(-0.1, 1.1)
plt.show()
SIGMOD函数的图像:
3.ReLU函数
在激活函数的发展史中SIGMOD函数很早就开始使用了。但是近期则主要使用ReLU函数。(Rectified Linear Unit)
ReLU函数的数学表示如下:
ReLU函数的代码实现:
import numpy as np
import matplotlib.pylab as plt
def relu(x):
return np.maximum(0, x)
x = np.arange(-5.0, 5.0, 0.1)
y = relu(x)
plt.plot(x, y)
plt.ylim(-1.0, 5.5)
plt.show()
ReLU函数的图像:
零食二:矩阵乘法
理论说的再好不如例子一个,我们举个来说明矩阵乘法怎么算。
我们定义二维矩阵A, B
A = {[2,4],[2,6],[5,6]}
矩阵A的形状为3×2
B = {[1,2,3],[4,5,6]}
矩阵A的形状为2×3
说明:矩阵的形状被乘数为第一维元素的个数,乘数为第二维元素的个数。如果两个二维矩阵相乘,必须保证第一个矩阵的第二维形状与第二个矩阵第一维的形状相等。在上述例子中为2 = 2,如果不相等则矩阵不可乘。
矩阵A乘以B记做A·B,我们用矩阵S表示(S = A·B)。S的形状为第一个矩阵的第一维的形状×第二个矩阵的第二维的形状,即shape(S) = 3×3,具体运算规则如下:
S[0][0] = A[0][0]×B[0][0] + A[0][1]×B[1][0] = 2×1 + 4×4 = 17
S[0][1] = A[0][0]×B[0][1] + A[0][1]×B[1][1] = 2×2 + 4×5 = 24
S[0][2] = A[0][0]×B[0][2] + A[0][1]×B[1][2] = 2×3 + 4×6 = 30
S[1][0] = A[1][0]×B[0][0] + A[1][1]×B[1][0] = 2×1 + 6×4 = 26
……
S[2][2] = A[2][0]×B[0][2] + A[2][1]×B[1][2] = 5×3 + 6×6 = 51
最终结果为:
S = {[17,24,30],[26,34,42],[29,40,51]}
Reference:
[1]斋藤康毅., 2016, Deep Learning from Scratch, Tokyo: O'Reilly Japan, Inc.
[2]耿素云.,1998, 离散数学.第2分册,集合论与图论, 北京: 北京大学出版社.
[3]李响初., 2012, 数字电路基础与应用, 北京: 机械工业出版社.