#1.什么是激活函数? --- 将输入信号的总和转化为输出信号的函数被称为是激活函数(active function)激活函数的作用在于决定如何来激活输入信号的总和
#2.sigmoid 函数 h(x)=1/(1+exp(-x)) :神经网络中sigmoid函数被用作为激活函数,进行信号的转换,转换后的信号被传送给下一个神经元。这里要注意的是,感知机的激活函数为阶跃函数,而神经网络的激活函数则为sigmoid函数.
#关于阶跃函数的实现
def step_functon(x):
if x>0:
return 1
else:
return 0
#注意在上述代码中,参数x只能为实数(浮点数),也就是说,允许类似于step_function(3.0)这样的调用,但不允许参数读取numpy数组,例如step_function([1.0, 2.0])
#因此,我们把它修改为支持numpy数组的实现,见下:
def step_function(x):
y = 0 > x
return y.astype(np.int) #可以用astype()方法转换numpy数组的类型。 astype()方法通过参数指定期望的类型。 python中将布尔型转换为int型后,True会转换为1,False会转换为0.
#阶跃函数的图形,在此我们需要使用matplotlib库,代码如下:
import numpy as np
import matplotlib.pylab as plt
def step_function(x):
return np.array(x>0, dtype=int)#python中,将布尔型转换为整形,True->1, False->0,只需要直接定义dtype就可以,不用astype()
x=np.arange(-5.0,5.0,0.1)
y=step_function(x)
plt.plot(x,y)
plt.ylim(-0.1,1.1)
plt.show()
#sigmoid函数的实现
def sigmoid(x):
return 1/(1+np.exp(-x)) ##注意这里要用np.exp,因为python不可以直接识别exp,而是要通过numpy!
# Q:为什么sigmoid函数的实现能支持numpy数组 --是因为numpy的广播功能,如果在标量和numpy数组之间进行运算,则标量会和numpy数组的各个元素进行运算。
#sigmoid的函数图像
x=np.arange(-5.0,5.0,0.1)
y=sigmoid(x)
plt.plot(x,y)
plt.ylim(-0.1,1.1)
plt.show()
#要注意,相比较阶跃函数,sigmoid函数的平滑性对神经网络具有重要的作用。阶跃函数和sigmoid函数均为非线性函数。而且神经网络的激活函数必须使用非线性函数。
#ReLU函数 h(x)=x(x>0),0(x<=0),代码实现如下:
def relu(x):
return np.maximum(0,x)
x=np.arange(-5.0,5.0,0.1)
y=relu(x)
plt.plot(x,y)
plt.ylim(-0.1,1.1)
plt.show()
#神经网络的内积 XW=Y,这里要注意X和W对应的维度是否一致
###重点内容:三层神经网络的实现
#step1:符号确认,首先导入w,a这些符号
#step2:各层间信号的传递,代码如下(输入层到第一层):
x = np.array([1.0, 0.5]) #x.shape()--> (2,) 注意是元组类型tuple
w1 = np.array([[0.1, 0.3, 0.5], [0.2, 0.4, 0.6]]) #(2,3)!!!注意:np.array()里面如果是多为矩阵的话有两个中括号
b1 = np.array([0.1, 0.2, 0.3]) #(3,)
print(w1.shape)
print(x.shape)
print(b1.shape)
a1 = np.dot(x,w1)+b1
#这是神经网络的第一层,接下来我们来观察第一层的激活函数的过程,我们把隐藏层的加权和(加权信号和偏置的总和)用a表示,被激活函数转换后的信号用z表示,h()表示激活函数sigmoid
z1 = sigmoid(a1)
print(a1)
print(z1)
(2, 3)
(2,)
(3,)
[0.3 0.7 1.1]
[0.57444252 0.66818777 0.75026011]
#第一层到第二层
w2 = np.array([[0.1, 0.4], [0.2, 0.5], [0.3, 0.6]])
b2 = np.array([0.1, 0.2])
print(w2.shape)
print(b2.shape)
print(z1.shape)
a2 = np.dot(z1, w2) + b2
z2 = sigmoid(a2)
(3, 2)
(2,)
(3,)
#最后是第二层到输出层的信号传递,不过最后层的激活函数和执勤的隐藏层有所不同。
def identity_function(x):
return x
w3 = np.array([[0.1, 0.3], [0.2, 0.4]])
b3 = np.array([0.1, 0.2])
a3 = np.dot(z2, w3) + b3
y = identity_function(a3)
#这里我们定义了identity——function()函数(也称为‘恒等函数’) 输出层的激活函数,要根据求解的问题的性质决定。一般地,回归问题可以使用恒等函数,二元分类问题可以使用sigmoid函数,多元分类问题可以使用softmax函数。
#代码实现小结
def init_network(): #定义init_network()可以进行权重和偏置的初始化,并将他们保存在字典变量network中。这个字典变量保存了每一层所需的权重和偏置
network={}
network['w1'] = np.array([[0.1, 0.3, 0.5], [0.2, 0.4, 0.6]])
network['b1'] = np.array([0.1, 0.2, 0.3])
network['w2'] = np.array([[0.1, 0.4], [0.2, 0.5], [0.3, 0.6]])
network['b2'] = np.array([0.1, 0.2])
network['w3'] = np.array([[0.1, 0.3], [0.2, 0.4]])
network['b3'] = np.array([0.1, 0.2])
return network
def forward(network, x): #forward()函数中封装了将输入信号转换为输出信号的处理过程
w1, w2, w3 = network['w1'], network['w2'],network['w3']
b1, b2, b3 = network['b1'], network['b2'],network['b3']
a1 = np.dot(x,w1) +b1
z1 = sigmoid(a1)
a2 = np.dot(z1,w2) + b2
z2 = sigmoid(a2)
a3 = np.dot(z2,w3) + b3
y = identity_function(a3)
return y
network = init_network()
x= np.array([1.0, 0.5])
y = forward(network,x)
print(y)
#输出层的设计
#softmax函数 -->可以看作是概率统计
def softmax(a):
exp_a=np.exp(a)
sum_exp_a=np.sum(exp_a)
y=exp_a/sum_exp_a
return y
#由于计算机处理数是:数值必须在4字节或者8字节的有限宽度之内。因此出现超大值无法表示的问题,该问题称为溢出。因此我们可以做出如下改进:
def softmax(a):
c=np.max(a)
exp_a=np.exp(a-c) #溢出对策
sum_exp_a=np.sum(exp_a)
y=exp_a/sum_exp_a
return y