这一章我们把前两章介绍的优化方法应用在我们的训练模型V1上(参考机器学习实战—MNIST手写体数字识别),看看如何使用简单的单隐藏层全连接神经网络提高准确率。话不多说直接开干。
加载TensorFlow和MNIST数据集
import tensorflow as tf
from tensorflow.examples.tutorials.mnist import input_data
mnist = input_data.read_data_sets("MNIST_data/", one_hot=True)
训练主程序
随着工程量的上升,我们尽量把需要重复使用以及功能独立的部分分开存放,以便于增加代码的可读性,方便debug,以及今后的维护。
def main_train(mnist):
x = tf.placeholder(tf.float32, [None, INPUT_NODE])
y_ = tf.placeholder(tf.float32, [None, OUTPUT_NODE])
...
同样的,我们需要声明一些变量,来代表经常使用的参数,比如:我们用INPUT_NODE代表输入数据的大小784,OUTPUT_NODE代表输出结果的大小10。比较好的习惯是尽量不要在代码中直接使用具体的数字,字符串等,而是通过预先声明的变量来赋值。这有利于增加代码的可读性,同时帮助避免不小心的疏忽导致这些值在编写时出差错。
INPUT_NODE = 784 # 输入节点数
OUTPUT_NODE = 10 # 输出节点数
LAYER1_NODE = 500 # 隐藏层节点数
隐藏层参数初始化
利用tf.truncated_normal 生成截断正态分布的随机值,标准差为0.1,作为权重
利用tf.constant生成值为0.1的常数参数作为变差值
weights1 = tf.Variable(tf.truncated_normal([INPUT_NODE, LAYER1_NODE], stddev=0.1))
biases1 = tf.Variable(tf.constant(0.1, shape=[LAYER1_NODE]))
输出层参数初始化
weights2 = tf.Variable(tf.truncated_normal([LAYER1_NODE, OUTPUT_NODE], stddev=0.1))
biases2 = tf.Variable(tf.constant(0.1, shape=[OUTPUT_NODE]))
前向传播计算
我们用此方程计算从输入到输出。对隐藏层使用ReLU激活函数,以去除线性化
def forward_pass(input_tensor, weights1, biases1, weights2, biases2):
ayer1 = tf.nn.relu(tf.matmul(input_tensor, weights1) + biases1)
return tf.matmul(layer1, weights2) + biases2
这样的话y就是我们的计算结果:
y = inference(x, weights1, biases1, weights2, biases2)
滑动平均类
首先我们要再声明一些变量将在训练中使用,最好是在文件的开始处,把所有需要声明的变量放在一起
LEARNING_RATE_BASE = 0.8
LEARNING_RATE_DECAY = 0.99
REGULARAZTION_RATE = 0.0001
TRAINING_STEPS = 5000
MOVING_AVERAGE_DECAY = 0.99
倘若我们要使用滑动平均模型代替单一点取值,则提供一个滑动平均类用于计算
# trainable=False 表示该变量不需要训练,global_step代表一共需要训练的轮数
global_step = tf.Variable(0, trainable=False)
# MOVING_AVERAGE_DECAY 为衰减率,用以控制模型更新速度,一般设置为非常接近1的值,容如0.9999
variable_averages = tf.train.ExponentialMovingAverage(MOVING_AVERAGE_DECAY, global_step)
# 在所有可以训练的参数变量上使用平均滑动模型
variables_averages_op = variable_averages.apply(tf.trainable_variables())
前向传播函数:
def forward_pass(input_tensor, avg_class, weights1, biases1, weights2, biases2):
layer1 = tf.nn.relu(tf.matmul(input_tensor, avg_class.average(weights1)) + avg_class.average(biases1))
return tf.matmul(layer1, avg_class.average(weights2)) + avg_class.average(biases2)
输出为
average_y = inference(x, variable_averages, weights1, biases1, weights2, biases2)
损失函数
我们使用交叉熵和正则化共同作为损失函数。交叉熵代表预测值和实际值之间的损失函数,正则化函数则是计算模型的正则化损失,二者之和用来衡量整个模型的损失函数。
# 交叉熵
cross_entropy = tf.nn.sparse_softmax_cross_entropy_with_logits(logits=average_y, labels=tf.argmax(y_, 1))
cross_entropy_mean = tf.reduce_mean(cross_entropy)
#正则化
regularizer = tf.contrib.layers.l2_regularizer(REGULARAZTION_RATE)
regularaztion = regularizer(weights1) + regularizer(weights2)
#最终损失函数
loss = cross_entropy_mean + regularaztion
衰减学习率
如上一章所说,我们希望学习率从一个较大的值开始,然后随着迭代的进行而衰减,这样有利于我们刚开始较快速的到达一个较优解,然后慢慢接近最优解。(参考优化算法-梯度下降,反向传播,学习率)
learning_rate = tf.train.exponential_decay(
LEARNING_RATE_BASE,
global_step,
mnist.train.num_examples / BATCH_SIZE,
LEARNING_RATE_DECAY,
staircase=True)
参数优化
利用梯度下降优化损失函数;使用tf.group同时更新反向传播过程中的参数,以及买一个参数的滑动平均值
train_step = tf.train.GradientDescentOptimizer(learning_rate).minimize(loss, global_step=global_step)
train_op = tf.group(train_step, variables_averages_op)
计算正确率
这里和之前的一样,就直接过了。
correct_prediction = tf.equal(tf.argmax(average_y, 1), tf.argmax(y_, 1))
accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))
创建Session开始训练
with tf.Session() as sess:
# 初始化参数变量
tf.global_variables_initializer().run()
# 定义输入数据,分为训练集和测试集
validate_feed = {x: mnist.validation.images, y_: mnist.validation.labels}
test_feed = {x: mnist.test.images, y_: mnist.test.labels}
for i in range(TRAINING_STEPS):
# 每训练一千次,打印一次在训练集中的正确率
if i % 1000 == 0:
validate_acc = sess.run(accuracy, feed_dict=validate_feed)
print("After %d training step(s), validation accuracy using average model is %g " % (i, validate_acc))
# 更新下一个batch,开始训练
xs,ys=mnist.train.next_batch(BATCH_SIZE)
sess.run(train_op, feed_dict={x:xs,y_:ys})
# 训练完成后,使用测试集进行测试
test_acc=sess.run(accuracy,feed_dict=test_feed)
print(("After %d training step(s), test accuracy using average model is %g" %(TRAINING_STEPS, test_acc)))
运行结果
除了jupyter notebook, 我们也可以直接运行python文件。最终的测试结果会在98.4%左右,远远好于我们之前的91%的准确率。而这个模型仅仅是加了一层隐藏层,并且使用的最简单的全连接神经网络结构。这就是深度学习在这次人工智能浪潮中大放异彩的原因。大家可以任意改变参数,尝试新的组合,试一试也许会有更高的准确率。
下一章我们会开始介绍卷积神经网络,并再一次使用MNIST作为案例,看CNN如何轻松达到99%以上的准确率。欢迎大家关注我们以便获得及时的更新,欢迎留言,一起学习~