
需求
利用SWA涨点
思考
https://pytorch.org/blog/stochastic-weight-averaging-in-pytorch/ pytorch官方支持了这个trick,关于这个trick原作者提供的 https://github.com/timgaripov/swa/blob/master/train.py 浅显易懂,还有个会议论文 https://arxiv.org/pdf/1803.05407.pdf
啥是SWA
相信大家都知道 模型参数平均,即使挑几个表现可以的epoch参数,然后mean一下求参数平均,期望有点增益,换成公式就是(比如共计12epoch, a是8epoch保存的模型,b是9epoch...)
w = (a + b + c + d + ...) / n
那么啥是SWA呢,很简单
w = (((a + b) / 2 + c) / 2 + d) / 2 + ...
对照公式

实验中n_models=1,n=total_epochs, c=1,就这么简单,要说第二个公式比第一个公式有什么好处吧,估计没什么好处,不过作者能从这么简单的idea抽象成12page的论文,公式和图都非常好看和震慑,是非常值得我们学习的