了解了神经网络的架构之后,我们会发现每个神经元都与其前后层的每个神经元相互连接,那么神经网络到底是如何从输入的数据经过一层一层的神经元,到达输出的呢?
我们会通过2个小例子来层层剖析神经网络是如何进行前向传播计算的。
神经网络前向传递过程的四个关键步骤具体说明如下。
1)输入层的每个节点,都需要与隐藏层的每个节点做点对点的计算,计算的方法是加权求和+激活函数。
2)利用隐藏层计算出的每个值,再使用相同的方法,与输出层进行计算(简单神经网络结构)。
3)隐藏层大量使用ReLU函数之前广泛使用Sigmoid作为激活函数,而输出层如果是二分类问题则一般使用Sigmoid函数;如果是多分类问题则一般使用Softmax作为激活函数。
4)起初输入层的数值将通过网络计算分别传播到隐藏层,再以相同的方式传播到输出层,最终的输出值将与样本值进行比较,计算出误差,这个过程称为前向传播。
我们来举例说明,输入节点为两个,分别是X1和X2,其中X1=0.3、X2=-0.7,真实值Y为0.1,我们可以看到输入层到隐藏层之间的神经元是相互连接的,想象一下,如果神经元过多,那么相互连接的链接将会非常的多,整个计算就会变得非常复杂,读者们可能会有非常多的设计思路来改善连接方式;
但是神经网络还是坚持了这种看似繁杂的设计架构,其主要原因是为了方便计算机的计算(矩阵运算),另一个原因是神经网络的学习过程将会慢慢弱化某些链接(即这些链接上的权重慢慢趋近于0)。
例子1 下面再按照之前的步骤手动计算一下。对输入层到隐藏层的节点进行加权求和,结果分别如下。
·节点1的值为X1*W1+X2*W3=0.3*0.2+(-0.7)*0.8=-0.5
·节点2的值为X1*W2+X2*W4=0.3*(-0.7)+(-0.7)*(-0.5)=0.14
接着对隐藏层的节点的值执行Sigmoid激活,结果分别如下。
最后对隐藏层的输出到输出节点进行加权求和: 0.378*0.3+0.535*0.5=0.381 Sigmoid代码如下:
import numpy as np
def _sigmoid(in_data):
return 1 / (1 + np.exp(-in_data))
print(_sigmoid(-0.5))
print(_sigmoid(0.14))
我们最后得到的Y的预测值为 0.381,与真实值0.1存在一定的差距,那么,这个时候就需要使用反向传播来使预测值更接近真实值了(不断优化迭代,更新权重)。
在进行反向传播的讲解之前,我们还是再来分析一下前向传播,看看目前的这个计算逻辑是否还有优化的空间。
之前的运算有点过于复杂,想象一下,如果层数比较多或者神经元比较多,那么通过上述这种方式来进行运算就非常耗时间了,所幸的是,有矩阵计算这样的方式来帮助我们快速运算,下面再来看一个稍微复杂一点的例子。
对于节点1来说,其是通过x1*w11+x2*w21+x3*w31得到的,对于节点2是通过x1*w12+x2*w22+x3*w32得到,以此类推。
如果结合矩阵运算知识,我们就可以写为如下这种形式:
矩阵运算更为简单,而且效果与我们手算的结果是一样的。
现在假设输入数据源是[0.9,0.1,0.8],顺便说一下,本例子只是一个简单的说明,里面的输入数据源以及权重都是无意义的,只是为了举例方便罢了。
另外,不要去纠结为何针对一个三分类使用的是Sigmoid激活函数,而不是使用Softmax,因为这里只是作为一个例子说明一下神经网络是如何进行前向传播计算的。
示例代码具体如下:
import numpy as np
def _sigmoid(in_data):
return 1 / (1 + np.exp(-in_data))
#输入层
x = np.array([0.9,0.1,0.8])
#隐藏层:需要计算输入层到中间隐藏层每个节点的组合,中间隐藏层的每个节点都与输入层的每个节点相连,所以w1是一个3*3的矩阵
#因此每个节点都会得到输入信号的部分信息。
#第一个输入节点与中间隐藏层第一个节点之间的权重为w11=0.9,输入的第二个节点与隐藏层的第二节点之间的链接的权重为w22=0.8
w1 = np.array([[0.9,0.3,0.4],
[0.2,0.8,0.2],
[0.1,0.5,0.6]])
#因为输出层包含了3个节点,所以w2也是一个3*3的矩阵
w2 = np.array([
[0.3,0.7,0.5], [0.6,0.5,0.2],
[0.8,0.1,0.9]
])
Xhidden = _sigmoid(w1.dot(x))
print(Xhidden)
Xoutput = w2.dot(Xhidden)
print(Xoutput)
#最终输出的结果 下面再来考虑一个更复杂的例子,之前的例子中我们只考虑了权重,本例中我们来看下增加bias的情况。
本例的神经网络结构,增加bias 对于每一层的权重矩阵,又该如何确定其形状呢?
第一层的W1的形状取决于输入层,本例中为2,输出为3,所 以W1的形状为(2,3),以此类推,W2的形状为(3,2)、W3的形状为(2,2),bias的形状也比较容易确定,就是看输出层包含多少个神经元就是多少,比如第一层的bias就是(3,)。
具体代码如下:
import numpy as np
def _sigmoid(in_data):
return 1 / (1 + np.exp(-in_data))
def init_network():
network={}
network['W1']=np.array([[0.1,0.3,0.5],[0.2,0.4,0.6]])
network['b1']=np.array([0.1,0.2,0.3])
network['W2']=np.array([[0.1,0.4],[0.2,0.5],[0.3,0.6]])
network['b2']=np.array([0.1,0.2])
network['W3']=np.array([[0.1,0.3],[0.2,0.4]])
network['b3']=np.array([0.1,0.2])
return network
def forward(network,x):
w1,w2,w3 = network['W1'],network['W2'],network['W3']
b1,b2,b3 = network['b1'],network['b2'],network['b3']
a1 = x.dot(w1) + b1
z1 = _sigmoid(a1)
a2 = z1.dot(w2) + b2
z2 = _sigmoid(a2)
a3 = z2.dot(w3) + b3
y = a3
return y
network = init_network()
x = np.array([1.0,0.5])
y = forward(network,x)
print(y) 输出结果为:[0.316827080.69627909]。
至此,神经网络的前向传播就介绍完了。