Meta-Learning in Neural Networks: A Survey
Citation: 236 (2021-08-29)

1. Motivation

一个典型的机器学习算法包含这样一些元素：
（1）从头训练（trained from scratch）；
（2）针对一个特定的任务（for a specific task)；
（3）使用一个固定的学习算法（using a fixed learning alogirthm)；
（4）人工设计(designed by hand)。

深度学习在一些领域取得了巨大的成功：
（1）拥有丰富的数据；
（2）有巨大的算力资源。

元学习（Meta Learning）提供了一个新的学习范式：
机器学习模型从多个学习episodes（经历、片段？）中获取经验，这些episodes往往覆盖一些相近任务（related task）的分布，然后用这个经验来提升未来的学习效果。

近些年深度学习的成功可以看做是特征、模型的联合学习，而元学习可以看做是特征、模型与算法的联合学习。

2. Background

2.1 Formalizing Meta-Learning

2.1.1 Conventional Machine Learning

给定训练数据 $D = \{(x_1, y_1), (x_2, y_2), ..., (X_N, y_N)\}$ ，要学习一个预测模型 $\hat{y} = f_{\theta}(x)$ ， $\theta$ 是要学习的模型 $f$ 的参数。
优化目标： $L = \arg\min_{\theta}L(D;\theta,w)$

$L$ 是损失函数，用来衡量真实值与预测值之间的差异。

$w$ denotes the dependence of this solution on assumptions about 'how to learn'。不太好翻译， $w$ 表示当前解法的一些假设，比如参数 $\theta$ 的优化方法的选择（哪种优化器）或者模型的选择等。

模型的泛化能力在一个有标签的测试数据上进行验证。

一般来说，传统的假设是对于每个问题，优化是从头开始学习的； $w$ 也是预先决定的。

就是这个预先决定，使得模型的效果以及泛化能力受到影响。因此，元学习从改变传统机器学习的第一假设开始，不使用确定的预先决定的假设，而是从一些任务的分布中来学习。

2.1.2 Meta Learning: Task-Distribution View

考虑任务 $T = \{D, L\}$ ，learning to learn变成，

$min_w \mathbb{E}_{T \sim p(T)} L(D;w)$

考虑 $M$ 个source tasks，
$D_{source} = \{(D_{source}^{train}, D_{source}^{val})^{(i)} \}_{i=1}^M$ ，每一个task都有训练集与验证集，训练集叫support set，验证集叫query set。