我们把神经网络从输入到输出的计算过程叫做前向传播(Forward propagation)。神经网络的前向传播过程,也是数据张量(Tensor)从第一层流动(Flow)至输出层的过程:从输入数据开始,途径每个隐藏层,直至得到输出并计算误差,这也是TensorFlow 框架名字意义所在。
激活函数的由来和意义
感知机(Perception)是线性模型,并不能处理线性不可分问题。通过在线性模型后添加激活函数(Activation function)后得到活性值(Activation)。添加激活函数后,感知机可以用来完成二分类任务的分类。阶跃函数和符号函数在𝑧 =0处是不连续的,其他位置导数为0,无法利用梯度下降算法进行参数优化。
神经网络(neural network):感知机模型的不可导特性严重约束了它的潜力,使得它只能解决极其简单的任务。实际上,现代深度学习动辄数百万甚至上亿的参数规模,它的核心结构与感知机并没有多大差别,它在感知机的基础上,将不连续的阶跃激活函数换成了其他平滑连续激活函数,并通过堆叠多层网络层来增强网络的表达能力。
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings('ignore')
1 Sigmoid
- 优点:它的一个优良特性就是能够把𝑥 ∈ 𝑅的输入“压缩”到𝑥 ∈ [0,1]区间,这个区间的数值在机器学习常用来表示以下意义:概率分布和信号强度。Sigmoid 函数连续可导,相对于阶跃函数,可以直接利用梯度下降算法优化网络参数,应用的非常广泛。
- 缺点:但是Sigmoid 函数在输入值较大或较小时容易出现梯度值接近于0 的现象,称为梯度弥散现象,网络参数长时间得不到更新,很难训练较深层次的网络模型。
def sigmoid(x):
return 1/(1+np.exp(-x))
X = np.arange(-5, 5, 0.1)
y = sigmoid(X)
plt.plot(X, y)
plt.ylim(-0.1, 1.1)
plt.title('Sigmoid')
plt.show()
使用tensorflow实现
import tensorflow as tf
x = tf.linspace(-6.,6.,100) # start和end只能是浮点数
y = tf.nn.sigmoid(x)
plt.plot(x,y)
plt.title('Sigmoid')
plt.show()
2 tanh
Tanh 函数能够将𝑥 ∈ 𝑅的输入“压缩”到[−1,1]区间,tanh 激活函数可通过Sigmoid 函数缩放平移后实现。
def tanh(x):
return (np.exp(x)-np.exp(-x))/(np.exp(x)+np.exp(-x))
X = np.arange(-6,6,0.1)
y = tanh(X)
plt.plot(X,y)
plt.ylim(-1.5,1.5)
plt.title('tanh')
plt.show()
使用tensorflow实现
X = np.arange(-6,6,0.1)
y = tf.nn.tanh(X)
plt.plot(X,y)
plt.title('tanh')
plt.show()
3 relu
它具有单侧抑制、相对宽松的兴奋边界等特性。ReLU 函数的设计源自神经科学,计算十分简单,同时有着优良的梯度特性,在大量的深度学习应用中被验证非常有效,是应用最广泛的激活函数之一。
def relu(x):
return np.maximum(0,x)
X = np.arange(-6,6,0.1)
y = relu(X)
plt.plot(X,y)
plt.ylim(0,6)
plt.title('relu')
plt.show()
使用tensorflow实现
X = np.arange(-6,6,0.1)
y = tf.nn.relu(X)
plt.plot(X,y)
plt.title('relu')
plt.show()
4 leaky_relu
其中𝑝为用户自行设置的某较小数值的超参数,如0.02 等。当𝑝 = 0时,LeayReLU 函数退化为ReLU 函数;当𝑝 ≠ 0时,𝑥 < 0能够获得较小的梯度值𝑝,从而避免出现梯度弥散现象。
def leaky_relu(x,p):
x = np.array(x)
return np.maximum(x,p*x)
X = np.arange(-6,6,0.1)
y = leaky_relu(X,0.1)
plt.plot(X,y)
plt.ylim(-1,6)
plt.title('leaky_relu')
plt.show()
用tensorflow实现
X = np.arange(-6,6,0.1)
y = tf.nn.leaky_relu(X,alpha = 0.1)
plt.plot(X,y)
plt.ylim(-1,6)
plt.title('leaky_relu')
plt.show()
5 Softmax函数及其意义
- 1)输出总和为1
- 2)每一个输出都介于[0.0~1.0]之间
- 3)exp(a)是单调递增函数,也就是说a的大小关系和y的大小关系并没有改变
- 4)机器学习分为学习和预测(深度学习中一般叫:推理)两个阶段:一般只在学习阶段给网络输出层加上softmax,在推理阶段,一般就省略掉了softmax函数。
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings('ignore')
def softmax(a):
exp_a = np.exp(a)
sum_exp_a = np.sum(exp_a)
y = exp_a / sum_exp_a
return y
a = np.array([24.4, 30.5, 100.8, 10.1, 20.2, 8.9, 5.1])
softmax(a)
array([6.60543742e-34, 2.94508560e-31, 1.00000000e+00, 4.06902625e-40,
9.90523443e-36, 1.22556715e-40, 2.74168832e-42])
```python
sum(softmax(a))
1.0
输出总和为1
实现softmax的注意事项
为了避免求exp(x)出现溢出的情况,一般需要减去最大值
a = np.array([1010, 1000, 990])
np.exp(a) / np.sum(np.exp(a))
array([nan, nan, nan])
```python
softmax(a)
array([nan, nan, nan])
```python
c = np.max(a)
a - c
array([ 0, -10, -20])
```python
print(softmax(a-c))
print(sum(softmax(a-c)))
[9.99954600e-01 4.53978686e-05 2.06106005e-09]
1.0
内容参考:《TensorFlow2深度学习》