[[TOC好像还不支持]]
简介
bert官方代码google-research/bert中有很多很强的设定,稍有改动就会导致结果很差。此文档简单总结如下。
google-research/bert版本:d66a146
该文档撰写时间:2019年4月11日
主要基于任务:run_classifier.py
一、学习率相关
代码使用了带warmup和decay的Adam(AdamWeightDecayOptimizer),这两个参数策略是动态学习率常用的,问题在于,官方代码中此两参数跟命令行参数num_train_epochs-训练轮数强关联,如果盲目修改代码而不恰当地设置num_train_epochs参数就会很糟糕。
一个重要、多次用的参数:训练总步数num_train_steps=num_train_steps = int(len(train_examples) / FLAGS.train_batch_size * FLAGS.num_train_epochs)是由样本数、batch_size和命令行参数num_train_epochs轮数计算出来的。【很重要,一定注意】
1.1 warmup
在训练的开始阶段使用较小的学习率再逐渐调整到预设初始学习率对训练有一定的帮助(某共识,出处未寻)。代码中使用了线性的调整,计算公式(github)如下:
# Implements linear warmup. I.e., if global_step < num_warmup_steps, the
# learning rate will be `global_step/num_warmup_steps * init_lr`.
if num_warmup_steps:
global_steps_int = tf.cast(global_step, tf.int32)
warmup_steps_int = tf.constant(num_warmup_steps, dtype=tf.int32)
global_steps_float = tf.cast(global_steps_int, tf.float32)
warmup_steps_float = tf.cast(warmup_steps_int, tf.float32)
warmup_percent_done = global_steps_float / warmup_steps_float
warmup_learning_rate = init_lr * warmup_percent_done
is_warmup = tf.cast(global_steps_int < warmup_steps_int, tf.float32)
learning_rate = (
(1.0 - is_warmup) * learning_rate + is_warmup * warmup_learning_rate)
当训练的步数global_steps小于warmup_steps时,将学习率乘以global_steps/warmup_steps这样一个线性增长的系数。warmup_steps的计算公式(github)是num_warmup_steps = int(num_train_steps * FLAGS.warmup_proportion),其中warmup_proportion是一个命令行参数,默认0.1,num_train_steps是总共训练的步数,由num_train_epochs轮数计算出,如果这个数设的太大(尤其当训练样本超大时)前期学习率会很低基本不优化。
1.2 lr decay
代码中使用了线性学习率衰减,使用了tf.train.polynomial_decay多项式衰减,参数如下:
# Implements linear decay of the learning rate.
learning_rate = tf.train.polynomial_decay(
learning_rate,
global_step,
num_train_steps,
end_learning_rate=0.0,
power=1.0,
cycle=False)
经过num_train_steps后将学习率衰减到end_learning_rate=0.0,power=1.0表示是个线性衰减。num_train_steps是根据命令行参数FLAGS.num_train_epochs-轮数计算出的,FLAGS.num_train_epochs默认是3,即如果未设置该参数,3个epoch后学习率将是0!!。
附tf.train.polynomial_decay介绍:
global_step = min(global_step, decay_steps)
decayed_learning_rate = (learning_rate - end_learning_rate) *
(1 - global_step / decay_steps) ^ (power) +
end_learning_rate
【注意】:
- CASE1:训练时间后,调大batch_size,会导致训练总步数num_train_steps变小,甚至小于当前全局步数global_steps,此时学习率会变成0,就没必要训练了。可以对应比例调整num_train_epochs训练轮数解决。
1.3 二次训练
训练一次后发现没有完全收敛,要再接着训练一次,但最新的checkpoints中学习率已经变成0了,修改num_train_epochs直接训练会导致没有任何效果。可以做如下修改:
- 指定新的output_dir, FLAGS.init_checkpoint指向上一次训练的output_dir。
- model_fn函数初始化模型时不要restore优化器相关的权重,尤其learning_rate。
二、shuffle-训练时的数据打乱
如果训练样本顺序输入,且同类样本较多时,代码中的shuffle可能起不到作用。d = d.shuffle(buffer_size=100)使用了Dataset的shuffle,其中buffer_size指缓冲区大小。训练时每次从缓冲区中按batch取样本,但缓冲区的补充是顺序取后续样本,如果buffer_size=1那就是没有打乱,顺序地取样本,如果buffer_size等于样本总数就相当于全局shuflle,但可能内存不够。
【建议】:数据处理时提前打乱;或buffer_size调大些,比如调成最大类下样本数。
三、流程相关-Estimator
Estimator时tensorflow高级api,旨在将训练、验证、预测、部署统一,但会带来很大的不灵活。常用流程一个epoch后eval一次,可以通过多次/循环调用estimator.train、estimator.evaluate。但是:
目前代码版本,每次train/evaluate都会重新构建model、加载与训练模型、回复最新的checkpoint,目前有个PR提出通过RunHook避免,相见google-research/bert/pull/450
一定不要忽略FLAGS.num_train_epochs和num_train_epochs
后记
相比pytorch,tf学习成本要高一些,尤其一些高级api。预研型实验还是pytorch简单高效。