浅谈SWA

需求

利用SWA涨点

思考

https://pytorch.org/blog/stochastic-weight-averaging-in-pytorch/ pytorch官方支持了这个trick,关于这个trick原作者提供的 https://github.com/timgaripov/swa/blob/master/train.py 浅显易懂,还有个会议论文 https://arxiv.org/pdf/1803.05407.pdf

啥是SWA

相信大家都知道 模型参数平均,即使挑几个表现可以的epoch参数,然后mean一下求参数平均,期望有点增益,换成公式就是(比如共计12epoch, a是8epoch保存的模型,b是9epoch...)

w = (a + b + c + d + ...) / n

那么啥是SWA呢,很简单

w = (((a + b) / 2 + c) / 2 + d) / 2 + ...

对照公式



实验中n_models=1,n=total_epochs, c=1,就这么简单,要说第二个公式比第一个公式有什么好处吧,估计没什么好处,不过作者能从这么简单的idea抽象成12page的论文,公式和图都非常好看和震慑,是非常值得我们学习的

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容