PyTorch实现mixup

  1. mixup与提高weight decay结合使用,可能对结果更有效。
  2. 更多数量的样本进行mixup不会带来更多收益。同类样本的mixup不会带来收益。
  3. 作者的实验是在同一个minibatch中进行mixup,但是注意需要shuffle。
  4. α∈[0.1, 0.4]会使得模型性能相比较ERM提升,而过大的α会导致欠拟合。由于mixup后样本数量会增加,难样本也变相增加,因此训练epoch要增大,才能使模型得到收敛,性能稳定提升。
  5. mixup训练完成后,再使用原始trainset + 低lr训练几个epoch,可能会进一步提升效果。

参考

  1. GitHub:hongyi-zhang/mixup
  2. 博客园:mixup: Beyond Empirical Risk Minimization
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容