Self-Attention Meta-Learner for Continual Learning论文归纳

被aamas2021( Autonomous Agents and Multiagent Systems) CCF B类会议收录。是荷兰埃因霍芬理工大学一群人写的。

这篇论文我都不想读完，论文撰写没什么问题，但是论文核心思想太浅了，没东西，有效性证明的很片面，严格点可以直接质疑论文观点正确性。

这篇工作听起来是meta-learning实际上就是用了用MAML，也没原创什么东西，就是把模型每层中间加了个attention层，把不同task训练得到的output layer收集起来来构造一个任务无关场景下的模型。任务无关就是测试中可能会出现任意一个训练过程中出现的任务所涉及到的类别（分类任务），因此需要对所有训练任务的类别进行保留，也就是保留不同任务训练时的output layer用于最后得出关于所有训练过的类别的概率值。

不过话说回来，本篇论文也是continual learning领域的工作，只是在meta-learning 层面贡献太小而已，但是因为我没怎么读过continual learning方面文献，真按原文表述来看它进步性还是很大的，看到用来对比的数据集split MNIST/CIFAR-10/CIFAR-100等感觉这种规模测试集好像显得有点落后，而这篇文章又是2021年也就是目前最新的一批工作了，和它对比的其他SOTA算法也从实验数据上看都有明显缺陷，跟它差很远感觉有点离谱。

它meta-learning 训练部分调用的dragen1860的MAML库，也是GitHub上搜MAML-pytorch版本排第一的库。我也用过这个库，它问题在于模型正确率离MAML原文差了2%左右，并且死活提不上去，用在其他领域还好，要是用在元学习和其他类MAML算法对比上直接硬性吃亏。

论文在分析方面好像做的很充分但是都经不起仔细推敲。

首先关于self-attention结构所发挥的作用上，作者给出两组数据，一组是消融实验证明了self-attention能提高模型正确率，另一组是可视化的模型不同阶段输出。第一组数据在我看来并不能直接支撑作者认为的attention机制能选择合适新任务的知识的观点，因为效果好不代表就是选择出合适任务的知识，也很可能是attention层对某些特征处理能力更强一些而已，并且这种本质上叠厚模型后得到的性能增加，就算好使也只是说明attention好使，并不能说明其他作者提出的任何主观推测。第二组可视化数据更是什么结论我都看不出来，原文作者也只说了一些无关痛痒的现象。

然后一组对比实验试图证明拥有好的前验知识的重要性，这里前验也就是指self-attention meta-learning部分，但是我仔细阅读原文描述很多遍后，我唯一发现的所谓“standard”和SAM的区别在于前半部分shared sub-network 所用训练集不同，而用更大数据集训练的效果更好。。。。。。这里更大数据集和好的前验知识之间有什么必然联系吗？前验知识的好坏评判标准是什么？什么才是好的前验知识？是更大数据集吗？总而言之这里的分析很感性，基本没什么逻辑，然后还引入了两个没什么实际作用的术语或者说是概念“standard setting”， “FWT”，在我看来不如直接白话解释。

最后一组对比实验更是迷上加迷，迷到我感觉应该是我没看懂。原文先提到 ELM作为对照组，然后指出在实验中具体表现为随机初始化shared sub-networks的参数然后在训练中固定。然后给出了和第一份分析差不多的数据，一组表格和一组可视化。这不训练的模型猜都猜得出来效果肯定不好啊，然后借助这波对比作者认为学会的前验知识能增强模型的泛化性能，感觉说了一句很对的废话。然后根据可视化数据指出attention能提取重点数据（因为只初始化的attention输出的权重都比较均匀而训练过的则存在差异），还是感觉在说废话。

总而言之就是做了一些好像有意义又好像没有意义的实验，说明了一些很对但是又感觉没什么用的结论。

毕竟看论文容易带有自己偏见，以上我的说法中肯定是存在瑕疵甚至错误的，但是这篇论文如果我审稿确实可能会被判定为勉强过甚至拒绝。归根揭底在于其核心idea太薄弱，并没有真正挖掘出属于自己的内容或者结论。对attention机制的利用也比较粗糙，就直接嵌入模型中了，而对造成的模型规模的增量影响也没有考虑。

Self-Attention Meta-Learner for Continual Learning论文归纳

推荐阅读更多精彩内容