深度学习调参技巧

从粗到细

实践中，一般先进行初步范围搜索，然后根据好结果出现的地方，再缩小范围进行更精细的搜索。

先参考相关论文，以论文中给出的参数作为初始参数。
如果找不到参考，那么只能自己尝试了。可以先从比较重要，对实验结果影响比较大的参数开始，同时固定其他参数，得到一个差不多的结果以后，在这个结果的基础上，再调其他参数。例如学习率一般就比正则值，学习率设置的不合适，不仅结果可能变差，模型甚至会无法收敛。
如果实在找不到一组参数，可以让模型收敛。那么就需要检查，是不是其他地方出了问题，例如模型实现，数据等等。

提高速度

调参只是为了寻找合适的参数，而不是产出最终模型。一般在小数据集上合适的参数，在大数据集上效果也不会太差。因此可以尝试对数据进行精简，以提高速度，在有限的时间内可以尝试更多参数。

对训练数据进行采样。例如原来100W条数据，先采样成1W，进行实验看看。
减少训练类别。例如手写数字识别任务，原来是10个类别，那么我们可以先在2个类别上训练，看看结果如何。

超参数范围

可以在对数尺度上进行超参数搜索。比较典型的是学习率和正则化项，我们可以从诸如0.001 0.01 0.1 1 10，以10为阶数进行尝试。因为他们对训练的影响是相乘的效果。

经验参数

learning rate: 1 0.1 0.01 0.001, 一般从1开始尝试。很少见learning rate大于10的。学习率一般要随着训练进行衰减。衰减系数一般是0.5。衰减时机，可以是验证集准确率不再上升时，或固定训练多少个周期以后。

不过更建议使用自适应梯度的办法，例如adam,adadelta,rmsprop等，这些一般使用相关论文提供的默认值即可，可以避免再费劲调节学习率。
网络层数：先从1层开始。
每层结点数： 16 32 128，超过1000的情况比较少见。超过1W的从来没有见过。
batch size: 128上下开始。batch size值增加，的确能提高训练速度。但是有可能收敛结果变差。如果显存大小允许，可以考虑从一个比较大的值开始尝试。因为batch size太大，一般不会对结果有太大的影响，而batch size太小的话，结果有可能很差。
clip c(梯度裁剪): 限制最大梯度,其实是value = sqrt(w1^2+w22….),如果value超过了阈值，就算一个衰减系系数,让value的值等于阈值: 5,10,15
dropout： 0.5
正负样本比例：这个是非常忽视，但是在很多分类问题上，又非常重要的参数。往往习惯使用训练数据中默认的正负类别比例，当训练数据非常不平衡的时候，模型很有可能会偏向数目较大的类别，从而影响最终训练结果。除了尝试训练数据默认的正负类别比例之外，可以对数目较小的样本做过采样，例如进行复制。提高他们的比例，看看效果如何，这个对多分类问题同样适用。

在使用mini-batch方法进行训练的时候，尽量让一个batch内，各类别的比例平衡。

自动调参

人工一直盯着实验，毕竟太累。自动调参当前也有不少研究。

Gird Search. 这个是最常见的。具体说，就是每种参数确定好几个要尝试的值，然后像一个网格一样，把所有参数值的组合遍历一下。优点是实现简单暴力，如果能全部遍历的话，结果比较可靠。缺点是太费时间了，特别像神经网络，一般尝试不了太多的参数组合。

总结

合理性检查，确定模型，数据和其他地方没有问题。
训练时跟踪损失函数值，训练集和验证集准确率。
使用Random Search来搜索最优超参数，分阶段从粗（较大超参数范围训练较少周期）到细（较小超参数范围训练较长周期）进行搜索。

参考资料

https://zhuanlan.zhihu.com/p/20767428