1. Cosine Learning Rate Decay
论文连接
学习率的调整在深度学习的训练中至关重要, 最常用也是被广泛使用的是指数型lr衰减,其学习率的变化如下图所示:
红线所示是标准的指数型lr衰减。蓝线是阶梯式的lr衰减,可以在一段时间内保持学习率的恒定。 这种衰减方式的优点是收敛速度较快,简单直接。
Loshchilov 提出了cosine annealing strategy。其简化的版本是将学习率从初始值遵循余弦函数减小到零。假设batchs的总数是 , 那么在batch , 学习率 可以根据以下公式计算出来:
由图所示, cosine decay在开始的时候缓慢的降低学习率,中间的时候几乎是线性的降低学习率,快结束的时候重新缓慢的降低学习率。