告别死记硬背,元学习才能学会学习

姓名:李妙歌        学号:20021210904

转载自https://mp.weixin.qq.com/s/7aI2pX3TFT7teY_2I5mjqQ

【嵌牛导读】:本文介绍的是 ICLR 2020 spotlight 论文《Meta-Learning without Memorization》(无记忆的元学习),来自德克萨斯大学奥斯汀分校在读博士生殷明章。

【嵌牛鼻子】:元学习 记忆问题 元正则化方法 

【嵌牛提问】:如何提出、定义、分析元学习中的记忆问题?如何让元学习更好的学会学习?

【嵌牛正文】:

让我们回顾片刻在学校学习的经历。每一天我们去上课,回答老师的问题;回家后我们解答作业问题,对照答案检查正确与否。日积月累,我们不仅学到了知识,更学会了如何学习 (learning to learn)。当面对新任务时,我们可以利用之前解决问题的经验并加上少量的练习,迅速学会新的技能。这种 “快速适应 (fast adaptation)” 能力被认为是智能的重要体现。在人工智能领域,元学习 (meta-learning) 是一种使机器 “学会学习” 的有效手段。

在这篇论文里,我们发现一个表征能力强大的人工神经网络除了 “快速适应” 外,还可以通过 “记忆” 的方式来解决训练集里的多项任务。不幸的是,一个只会记忆的神经网络不具备解决新任务的能力这篇论文旨在提出、定义、分析元学习中的记忆问题,并提出新的元正则化方法 (meta-regularization) 以避免记忆问题。

1 元学习的图模型

要训练一个元学习模型,首先需要从一个任务分布p(\tau )中生成多个任务。每个任务都由一个带标注的任务内训练数据D=(X,Y)和测试数据D^*=(X^*,Y^*) 组成。我们用M代表所有用于元训练(meta-training)的数据,\tau _{j} 代表一个元测试阶段的新任务。

我们在M上训练模型, 目标是当面对新任务时,它能够在少量训练数据D_{j} 上实现快速适应,从而准确预测新任务测试数据X_{j}^* 的标签。这个过程可以表示为一个层次型的图模型:

2 记忆问题 

回到开头的例子, 假设在学校每天学习的内容是解决一种题型,这对应于元训练里的一个任务。经过一段时间后,假设每种题型都被重复学习了若干次。如果一个学生可以记住各个题型,那么她/他将不需要再去上课也可以解决作业里的问题。也就是说她/他可以解决已知题型里的新问题,但这样的纯粹记忆并不能解决新的题型。让我们再看一个例子,假设每一个元训练里的任务是拟合一些线性相关的数据。我们希望模型能够学会利用少量的数据去估计模型参数,如下图所示:

这种快速适应能力可以泛化到解决元测试中的未曾见过的新任务,如下图(左)。但我们发现,如果模型足够灵活,那么一个单一模型就可以解决元训练中的所有任务,并且忽略任何任务内训练数据,如下图(右)。这导致在元测试阶段,当面对一个新任务时,算法仍然会忽略任务内训练数据,但这样做将无法解决新任务

我们将这样的现象定义为元学习中的记忆问题 (memorization problem),数学上表述为条件互信息为零:

                                                                                  I(\hat{y} ^*;D|x^*,M)=0

也就是说预测值和任务内训练数据是条件独立的。

值得注意的是记忆问题是否会出现与任务分布p(\tau )紧密相关。我们发现,如果各任务是互斥的(mutually exclusive),意即一个单一预测模型不可以解决所有的任务,那么记忆问题不会出现。例如小样本分类(few-shot classification)广泛地利用了这个特性。但在很大一类问题中,各任务不互斥,因此记忆问题广泛存在,并会影响多种元学习算法。

3 元正则化

基于以上分析和图表式,我们发现用于预测模型的信息来自元训练数据M, 任务内训练数据D和输入x^*。因此如果能够控制来自Mx^*的信息,同时要求实现精确预测,就可以鼓励模型利用D中的信息而不是忽略它。利用信息不等式和PAC-Bayes理论,我们得出一种方式是利用信息瓶颈(information bottleneck)约束:

                                                                                   D_{KL}(q(z^*|x^*,\theta )||r(z^*))

另一种方式是约束

                                                                                       D_{KL}(q(\theta |M)||r(\theta ))

其中\theta 对应编码器 (encoder): x\rightarrow z的参数。将以上元正则项 (Meta Regularization)和Model Agnostic Meta-Learning (MAML),Conditional Neural Process (CNP) 相结合, 我们提出了新的 “MAML先生” (MR MAML) 和 “CNP先生” (MR CNP) 算法。在几个非互斥任务的数据集上,我们的算法实现了大幅度的性能提升。在一个3D物体方向预测数据集上我们进行了实验:

我们也在非互斥的少样本分类数据上进行了实验:

4 结论

(1)记忆问题广泛存在于元学习问题和元学习算法中

(2)记忆问题是一种任务层面的过拟合,这不同于传统上数据点层面的过拟合

(3)通过元正则方法我们有效地控制了记忆问题,并拓展了元学习的应用场景


论文地址: 

1.https://openreview.net/pdf?id=BklEFpEYwS

2.https://www.aminer.cn/pub/5e718f6c9e795e1c35c5f81f/meta-learning-without-memorization

代码地址: https://github.com/google-research/google-research/tree/master/meta_learning_without_memorization

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容