激活函数
- relu
- sigmoid
- tanh
NN复杂度
多用NN层数和NN参数的个数来表示
损失函数
1. 均方误差(mean square error)
loss_mse = tf.reduce_mean(tf.square(y_-y))
2. 自定义损失函数
举例:大于正确值损失cost,小于正确值损失profit
loss = tf.reduce_sum(tf.where(tf.greater(y_,y), (y_ - y)*cost, (y - y_)*profit))
3. 交叉熵
两个概率分布之间的距离
ce = tf.nn.sparse_softmax_cross_entropy_with_logits(logits=y,labels=tf.argmax(y_, 1))
cem = tf.reduce_mean(ce)
学习率
参数每次更新的幅度
- 学习率过大
震荡不收敛 - 学习率过小
收敛速率过慢
指数衰减学习率
动态更新的学习率,在迭代初期得到较高的下降速度,可以在较小的训练轮数下取得更有收敛度
源代码(opt4_4的复现)
1 #coding:utf-8
2 import tensorflow as tf
3
4 w = tf.Variable(tf.constant(5, dtype = tf.float32))
5
6 loss = tf.square(w+1)
7
8 train_step = tf.train.GradientDescentOptimizer(0.01).minimize(loss)
9
10 with tf.Session() as sess:
11 init_op = tf.global_variables_initializer()
12 sess.run(init_op)
13 for i in range(40):
14 sess.run(train_step)
15 w_val = sess.run(w)
16 loss_val = sess.run(loss)
17 if i % 10==0:
18 print("After %d training steps,the loss is %f,w is %f") % (i,loss_val,w_val)
经过优化后的学习率
核心代码:
LEARNING_RATE_BASE = 0.1 #最初学习率
LEARNING_RATE_DECAY = 0.99 #学习率衰减率
LEARNING_RATE_STEP = 1 #喂入多少轮BATCH_SIZE后,更新一次学习率,一般设为:总样本数/BATCH_SIZE
运行了几轮BATCH_SIZE的计数器,初值给0, 设为不被训练
global_step = tf.Variable(0, trainable=False)
定义指数下降学习率
learning_rate = tf.train.exponential_decay(LEARNING_RATE_BASE, global_step, LEARNING_RATE_STEP, LEARNING_RATE_DECAY, staircase=True)
#staircase为True时,学习率变化曲线为梯形,为False时,学习率变化曲线为光滑曲线
定义反向传播方法
train_step = tf.train.GradientDescentOptimizer(learning_rate).minimize(loss, global_step=global_step)
滑动平均(影子值)
记录每一个参数一段时间内过往值的平均,增加模型的泛化性
针对所有参数
给参数加上影子,当参数变化时,影子慢慢追随
计算公式:
影子 = 影子 * 衰减率 + 参数 * (1 - 衰减率)
影子初值 = 参数初值
衰减率=min{MOVING_AVERAGE_DECAY,(1+轮数)/(10+轮数) }