经过对神经网络的理解,以分类网络为例,我认为其就是构建了一个高维非线性的函数映射,其基础还是线性映射,通过激活函数等操作将整体映射转化为非线性。而训练过程就是一个拟合的过程。个人在写这个教程是建立在对神经网络有了一定基础认知之后写的,但是目的是Tensorflow的使用,所以不再赘述神经网络的细节。
3.1 Tensorflow训练线性运算
首先从简单的入手,使用Tensorflow构建一个线性映射进行训练,可以理解为一个深度神经网络没有激活函数的神经元。
3.1.1 构建训练数据
首先我们需要构造训练数据,这个需要使用Numpy(教程)的随机数方法,Numpy在神经网络中多有运用,最好掌握一下,构建原始数据代码如下:
import tensorflow as tf
import numpy as np
x_data = np.random.rand(100).astype(np.float32)
y_data = 0.5 * x_data + 0.1
3.1.2 构建计算图
构建原始数据之后,我们需要设计计算图,也就是设计张量的流向,因为我们设计的是线性运算,需要设置Weights和bias,设计代码如下:
# 设计计算图
Weights = tf.Variable(tf.random_uniform([1],-1,1))
bias = tf.Variable(tf.zeros([1]))
# 这个y是我们训练出来的y,y_data是groundtruth,我们要根据x_data训练去拟合y_data
y = Weights * x_data + bias
3.1.3 定义loss和选择优化器
在神经网络中我们知道,需要根据需要选择不同的loss,比如交叉熵,二范式距离等,这个以后运用多了有了一定理解会专门写一个章节介绍loss和优化器。对于本例,我先使用简单的二范式距离,将y和y_data做loss,选择优化器为梯度下降法,代码如下:
loss = tf.reduce_mean(tf.square(y - y_data))
optimizer = tf.train.GradientDescentOptimizer(0.5)
对于本例来说,训练我们想达到的迭代的目的就是y和y_data构建的二范式loss在梯度下降法的作用下尽可能小,loss和优化器之前定义过,我们需要告诉tensorflow我们进行网络训练的期望是什么,是最小化loss,如下所示:
train = optimizer.minimize(loss)
3.1.4 迭代训练
首先迭代进行计算之前的问题是参数的初始化,比如Weights和bias,虽然他们定义了tf.Variable()但是并没有进行实际的计算,参考lesson2的解释。我们可以定义会话去挨个调用sess.run(name.initializer)让他们进行初始化的实际操作。但是会很麻烦,所以我们定义如下的全局初始化器,这样之后我们sess.run(init)就可以实现全局的初始化。
init = tf.global_variables_initializer()
定义会话并进行迭代输出,每迭代20次输出一次结果:
sess = tf.Session()
sess.run(init)
for step in range(10000):
sess.run(train)
if step % 20 == 0:
print(step,sess.run(Weights),sess.run(bias))
sess.close()
3.1.5 准确率评测
一般来说这一部分会存在用于评估准确率和模型效果,因为我们只写了简单的线性拟合训练就不在写这一部分,主要我现在不怎么会
3.1.6 完整代码和训练结果
完整代码:
import tensorflow as tf
import numpy as np
x_data = np.random.rand(100).astype(np.float32)
y_data = 0.5 * x_data + 0.1
Weights = tf.Variable(tf.random_uniform([1],-1,1))
bias = tf.Variable(tf.zeros([1]))
y = Weights * x_data + bias
loss = tf.reduce_mean(tf.square(y - y_data))
optimizer = tf.train.GradientDescentOptimizer(0.5)
train = optimizer.minimize(loss)
init = tf.global_variables_initializer()
sess = tf.Session()
sess.run(init)
for step in range(1000):
sess.run(train)
if step % 20 == 0:
print(step,sess.run(Weights),sess.run(bias))
sess.close()
训练过程:
3.2 本例中涉及的Tensorflow的函数接口
3.2.1 tf.Varible()
该函数是Tensorflow声明变量所用,返回值为一个张量,括号内传参为该变量的初始化值及大小等
3.2.2 Tensorflow随机数生成函数
函数名称 | 随机数分布 | 主要参数 |
---|---|---|
tf.random_normal | 正态分布 | 平均值、标准差、取值类型 |
tf.truncated_normal | 正态分布,但如果随机出来的值偏离平均值超过两个标准差,那么这个数就会被重新随机 | 平均值、标准差、取值类型 |
tf.random_uniform | 均匀分布 | 最小最大取值、取值类型 |
tf.random_gama | Gamma分布 | 形状参数alpha,尺度参数beta,取值类型 |
3.2.3 Tensorflow常数生成函数
函数名称 | 功能 | 样例 |
---|---|---|
tf.zeros | 产生全0数组 | tf.zeros([2,3],int32)->[[0,0,0],[0,0,0]] |
tf.ones | 产生全1数组 | tf.ones([2,3],int32)->[[1,1,1],[1,1,1]] |
tf.fill | 产生一个全部为给定数字的数组 | tf.fill([2,3],9)->[[9,9,9],[9,9,9]] |
tf.constant | 产生一个给定数值的常量 | tf.constant([1,2,3])->[1,2,3] |
3.2.4 优化器和loss函数
这个之后单独找一节我详细叙述,我现在这一部分也懵懂状态