链接: https://arxiv.org/abs/1707.09835
文章是华为诺亚方舟实验室的, 写在MAML后四月(Meta-SGD7月, MAML3月), dblp上查了一下好像没有发表在其他地方, 只有arxiv上有, 但是引用也有快500了(截止2021年8月).
整体文章写的比较杂, 但是其实核心想法很精炼.
一句话就能概括完, MAML外循环只更新θ, Meta-SGD外循环也把内循环用的学习率α也一起更新了, 更新方式和θ一模一样(都是同一个loss函数).
这里α不再是一个数, 而是和θ同大小的张量, 意思就是内循环更新过程中θ的每个值都有单独对应的不同学习率来更新.
方法虽然简单, 并且效果也比较好, 但是我觉得存在着不合理的地方.
一 大部分优化器采取的学习率往往是随着训练次数增加不断缩小的, 这一点能不能反应在由外循环训练得到的新学习率中文章没有相关讨论. 二 这里的学习率更新规则是为了减少整体test误差设计的, 而没有考虑不同任务的差异. 实际中不同任务学习过程应该存在较大差别, 这种不同任务统一学习率的做法, 直观上缺少合理性支撑.
但是相关实验又表现的很好, 只关注miniImageNet上可以看到1-shot正确率达到50.47%, 已经是当时新的sota了.