【译】小样本学习综述（上）

注明：本文是对一篇整理166篇文献的综述翻译，其中对应文献地址都已附上为方便点击查看学习。查看有的文献可能需要科学上网。原文文末附有。由于篇幅太长分为上下俩部分。

机器学习在数据密集型应用程序中非常成功，但是在数据集较小时通常会受到阻碍。最近，提出了Few-Shot Learning（FSL）来解决这个问题。使用先验知识，FSL可以快速推广到仅包含少数带有监督信息的样本的新任务。在本文中，我们进行了彻底的调查，以全面了解FSL。从FSL的正式定义开始，我们将FSL与几个相关的机器学习问题区分开来。然后，我们指出FSL的核心问题是经验风险最小化器不可靠。基于如何使用先验知识来处理此核心问题，我们从三个角度对FSL方法进行了分类：（i）数据，它使用先验知识来增强监督经验；（ii）模型，该模型使用先验知识来减小假设空间的大小；（iii）算法，该算法使用先验知识来改变对给定假设空间中最佳假设的搜索。通过这种分类法，我们将审查和讨论每个类别的利弊。在FSL问题设置，技术，应用和理论方面，也提出了有前途的方向，以为未来的研究提供见识。

小样本学习（FSL）综述.png

1 引言

“机器可以思考吗？”这是艾伦·图灵（Alan Turing）在1950年发表的开创性论文Computing Machinery and Intelligence中提出的问题。他说：“可以解释数字计算机背后的思想，说这些计算机旨在执行任何可能的操作，由人机完成”。换句话说，机器的最终目标是要像人类一样聪明。近年来，由于功能强大的计算设备（例如GPU和分布式平台）的出现，大数据集（例如具有1000类的ImageNet数据imageNet: A large-scale hierarchical image database），高级模型和算法（例如卷积神经网络（convolutional neural networks-CNN）ImageNet classification with deep convolutional neural networks）和长短期记忆（LSTM）Long short-term memory
），人工智能加快了步伐，使其像人类一样在许多领域击败了人类。仅举几例，AlphaGo Mastering the game of Go with deep neural networks and tree search在古代的围棋比赛中击败了人类冠军；残差网络（residual network-ResNet）High-risk learning:acquiring new word vectors from tiny data在ImageNet上比人类获得更好的分类性能。人工智能还支持日常生活中许多方面的智能工具的开发，例如语音助手，搜索引擎，自动驾驶汽车和工业机器人。

尽管火热，但当前的AI技术无法从少量样本中快速推广。上述成功的AI应用依赖于从大规模数据中学习。相反，人类可以利用过去的经验快速学习新任务。例如，一个学习了加法的孩子可以迅速给出自己的知识来学习乘法（例如2×3 = 2 + 2 + 2和1×3 = 1 + 1 + 1）。另一个例子是，给定几张陌生人的照片，孩子可以轻松地从大量照片中识别同一个人。

弥合人工智能与人类之间的鸿沟是一个重要的方向。机器学习可以解决这个问题，机器学习涉及如何构建随经验而自动提高的计算机程序[92,94]。为了从监督信息的有限样本中学习，提出了一种新的机器学习范式，称为Few-Shot Learning （FSL）[One-Shot Learning of Object
Categories，Object Classification from a Single Example]。一个典型的例子是字符生成[Human-level concept learning through probabilistic program induction]，在其中给出了一些样本，要求计算机程序解析并生成新的手写字符。要处理此任务，可以将字符分解为可在各个字符之间转移的较小部分，然后将这些较小的组件聚合为新字符。这是一种像人类一样的学习方法[Building machines that learn and think like people]。当然，FSL还可以推动机器人技术[Introduction to Robotics: Mechanics and Control]，后者开发出可以复制人类行为的机器。例子包括一眼模仿（one-shot imitation）[Towards one shot learning by imitation for humanoid robots]，多臂老虎机问题（multi-armedbandits）[One-shot imitation learning]，视觉导航（visualnavigation）[Model-agnostic meta-learning for fast adaptation of deep networks]和连续控制（continuouscontrol）[Bayesian model-agnostic meta-learning]。

另一个经典的FSL场景是，由于隐私，安全或道德问题，很难或不可能获取带有监督信息的样本。一个典型的例子是药物发现，它试图发现新分子的特性，以便将有用的分子识别为新药[Low Data Drug Discovery with One-Shot Learning]。由于可能的毒性，低活性和低溶解度，新分子在临床候选药物上没有很多真实的生物学记录。因此，从少量样本中有效学习就显得重要了。目标任务没有很多样本，类似示例包括FSL转换[Learning to remember rare events]和冷启动项目推荐[A meta-learning perspective on cold-start recommendations for items]。通过FSL，可以为这些罕见情况学习合适的模型。

FSL还可以帮助减轻收集大规模监督数据的负担。例如，尽管ResNet[Deep residual learning for image recognition]在ImageNet上的表现优于人类，但每个类别都需要有足够的带标签的图像，这些图像可能很难收集。 FSL可以减少数据密集型应用程序的数据收集工作。例如包括图像分类[Matching networks for one shot learning.]，图像检索[Few-shot learning through an information retrieval lens]，对象跟踪[Learning feed-forward one-shot learners]，手势识别[Domain-adaptive discriminative one-shot learning of gestures]，图像标题，视觉问答[Fast parameter adaptation for few-shot image captioning and visual question answering]，视频事件检测[Multi-task transfer methods to improve one-shot learning for multimedia event detection]，语言建模[Matching networks for one shot learning]和神经体系结构搜索[SMASH: One-shot model architecture search through hypernetworks]。

在AI接近人类的学术目标以及对廉价学习的工业需求的推动下，FSL引起了很多关注，并且现在已成为热门话题。已经提出了许多相关的机器学习方法，例如元学习（meta-learning）[Model-agnostic meta-learning for fast adaptation of deep networks，Optimization as a model for few-shot learning，Meta-learning with memory-augmented neural networks]，嵌入学习（embedding learning）[Learning feed-forward one-shot learners，Learning to compare: Relation network for few-shot learning，Matching networks for one shot learning]和生成模型（ generative modeling ）[Towards a neural statistician，One-shot learning of object categories，One-shot learning with a hierarchical nonparametric Bayesian model]。但是，目前尚无提供连接这些FSL方法的有组织分类法的工作，没有解释为什么某些方法有效而其他方法却无效的工作，也没有讨论不同方法的利弊。因此，本文对FSL问题进行了调查。相反，[Small sample learning in big data era]中的调查仅关注概念学习和小样本经验学习。

这项调查的贡献可以总结如下：

•我们给出了关于FSL的正式定义，该定义自然与[Machine Learning，Foundations of machine learning]中的经典机器学习定义相关。该定义不仅足够笼统以包括现有的FSL作品，而且还足够具体以阐明FSL的目标是什么以及我们如何解决它。该定义有助于在FSL领域设定未来的研究目标。
•我们通过具体例子列出了FSL的相关学习问题，阐明了它们与FSL的相关性和差异。这些讨论可以帮助更好地区分和定位FSL在各种学习之间的问题。
•我们指出，FSL监督学习问题的核心问题是不可靠的经验风险最小化器，它是基于机器学习中的错误分解[The tradeoffs of large scale learning]进行分析的。这为以更组织和系统的方式改进FSL方法提供了思路。
•我们进行了广泛的文献综述，并从数据，模型和算法的角度将它们组织在统一的分类法中。我们还提供了一些见解的摘要，并就每个类别的利弊进行了讨论。这些可以帮助您更好地理解FSL方法。
•我们在问题设置，技术，应用和理论方面为FSL提出了有希望的未来方向。这些见解基于FSL当前开发的弱点，并可能在将来进行改进。

1.1 调查组织

本调查的其余部分安排如下。第2节概述了FSL，包括FSL的正式定义，相关的学习问题，核心问题以及现有作品的数据，模型和算法分类。第3节介绍用于扩充数据以解决FSL问题的方法。第4节介绍了减小假设空间大小以使FSL可行的方法。第5节介绍了更改算法搜索策略以处理FSL问题的方法。在第6节中，我们在问题设置，技术，应用和理论方面提出了FSL的未来发展方向。最后，调查在第7节中结束

1.2 符号和术语

考虑一个学习任务T，FSL处理数据集 $\scriptstyle D = \{D_{train}，D_{test}\}$ ，其中包括一个训练集 $\scriptstyle D_{train} =\{(x_i，y_i)\}_{i = 1}^I$ （其中 $\scriptstyle I$ 不大）和一个测试集 $\scriptstyle D_{test} = \{x^{test} \}$ 。设 $\scriptstyle p(x，y)$ 为输入x和输出y的联合概率分布， $\scriptstyle \hat h$ 是从 $\scriptstyle x$ 到 $\scriptstyle y$ 的最优假设。 FSL通过拟合 $\scriptstyle D_{train}$ 并在 $\scriptstyle D_{test}$ 上进行测试来学习发现 $\scriptstyle \hat h$ 。为了逼近 $\scriptstyle \hat h$ ，FSL模型确定了假设 $\scriptstyle h(\cdot ; \theta)$ 的假设空间 $\scriptstyle \mathcal{H}$ ，其中 $\scriptstyle θ$ 表示 $\scriptstyle h$ 使用的所有参数。这里使用参数 $\scriptstyle h$ ，因为非参数模型通常需要大量数据集，因此不适合FSL。 FSL算法是一种搜索 $\scriptstyle \mathcal{H}$ 的优化策略，以找到参数化最佳 $\scriptstyle h^{*} \in \mathcal{H}$ 的 $\scriptstyle θ$ 。FSL性能由预测 $\scriptstyle \hat{y}=h(x ; \theta)$ 上定义的损失函数 $\scriptstyle \ell(\hat{y}, y)$ 和观察到的输出 $\scriptstyle y$ 来衡量。

2 概述

在本节中，我们首先在2.1节中提供FSL问题的正式定义，并提供具体示例。为了区分FSL问题和相关的机器学习问题，我们将在2.2节中讨论它们的相关性和差异。在第2.3节中，我们讨论了使FSL变得困难的核心问题。然后，第2.4节根据现有作品如何处理核心问题提出了统一的分类法。

2.1 定义

由于FSL是机器学习的一个子领域，因此在给出FSL的定义之前，让我们回顾一下文献中机器学习是如何定义的。定义2.1（MachineLearning [Machine Learning，Foundations of machine learning]）。如果某项任务的性能可以用 $\scriptstyle P$ 测得的 $\scriptstyle T$ 上的 $\scriptstyle E$ 来提高，则可以从计算机上学习有关任务 $\scriptstyle T$ 和性能度量 $\scriptstyle P$ 的某些类的经验 $\scriptstyle E$ 。
例如，考虑到图像分类任务（ $\scriptstyle T$ ），机器学习程序可以通过训练大量带标签的图像（例如ImageNet数据集[ImageNet classification with deep convolutional neural networks
]）来通过 $\scriptstyle E$ 获得提高 $\scriptstyle E$ 的分类精度（ $\scriptstyle P$ ）。另一个示例是此处的计算机程序AlphaGo [Mastering the game ofGo with deep neural networks and tree search]，它在人类的大胜率上证明了这一点（经过30倍的时间），专家们就不断地训练了（ $\scriptstyle T$ ）（ $\scriptstyle P$ ）。就像反复与自己比赛。这些总结在表1中。

image.png

如上述示例中所示，典型的机器学习应用程序需要大量带有监督信息的样本。但是，如引言中所述，这可能是困难的，甚至是不可能的。 FSL是机器学习的一种特殊情况，在训练集 $\scriptstyle D_{train}$ 中提供有限的监督信息的情况下，其目标是获得良好的学习性能，该训练集包括输入 $\scriptstyle x_i$ 以及其对应的输出 $\scriptstyle y_i$ 的样本[Pattern Recognition and Machine Learning]

正式地，我们在定义2.2中定义FSL。Few-Shot Learning （FSL）是一类机器学习问题（由 $\scriptstyle E，T$ 和 $\scriptstyle P$ 指定），其中 $\scriptstyle E$ 仅包含有限数量的样本，其中包含针对目标 $\scriptstyle T$ 的监督信息。

现有的FSL问题主要是监督学习问题。具体来说，few-shot classification 仅在每个类的几个带标签的样本中学习分类器。示例应用包括图像分类[Matching networks for one shot learning]，短文本的情感分类[Diverse few-shot text classification with multiple metrics]和对象识别[One-shot learning of object categories]。形式上，使用1.2节中的符号，few-shot classification学习了一个分类器 $\scriptstyle h$ ，它预测每个输入 $\scriptstyle x_i$ 的标签 $\scriptstyle y_i$ 。通常，人们会考虑使用 $\scriptstyle N-way-K-shot$ 分类法[Model-agnostic meta-learning for fast adaptation of deep networks，Matching networks for one shot learning]，其中 $\scriptstyle D_{train}$ 包含 $\scriptstyle I = KN$ 个样本，这些示例来自 $\scriptstyle N$ 个分类，每个分类都有 $\scriptstyle K$ 个样本。Few-shot regression [Model-agnostic meta-learning for fast adaptation of deep networks，Bayesian model-agnostic meta-learning]在仅从该函数采样的几个输入-输出样本对的情况下估计回归函数 $\scriptstyle h$ ，其中输出 $\scriptstyle y_i$ 是因变量 $\scriptstyle y$ 的观测值，而 $\scriptstyle x_i$ 是记录观测值的输入自变量 $\scriptstyle x$ 的值。除了少量样本的监督学习之外，FSL的另一个实例是few-shot reinforcement learning [Continuous adaptation via metalearning in nonstationary and competitive environments，One-shot imitation learning]，其目标是在仅给出由状态-动作对组成的少数轨迹的情况下找到一种策略。

现在，我们展示FSL的三种典型情况（表2）：

•像人类一样充当学习的试验床。为了向人类智能迈进，计算机程序能够解决FSL问题至关重要。一个流行的任务（ $\scriptstyle T$ ）是仅给出几个例子就生成一个新角色的样本[Human-level concept learning through probabilistic program induction]。受人类学习方式的启发，计算机程序使用E进行学习， $\scriptstyle E$ 由既有监督信息的给定样本以及经过预训练的内容（如部件和关系）作为先验知识组成。通过视觉图灵测试（ $\scriptstyle P$ ）的通过率评估生成的字符，该测试可区分图像是由人还是由机器生成。有了这些先验知识，计算机程序还可以像人类学习分类，解析和生成新的手写字符
•学习稀有的情况。当很难或不可能获得带有充足的监督信息样本时，FSL可以为稀有情况学习模型。例如，考虑一个药物发现任务（ $\scriptstyle T$ ），该任务试图预测一个新分子是否具有毒性作用[Low data drug discovery with one-shot learning]。通过新分子的有限测定和许多类似分子的测定（即先验知识）获得的 $\scriptstyle E$ ，正确分配为有毒或无毒（ $\scriptstyle P$ ）分子的百分比会提高。
•减少数据收集工作量和计算成本。 FSL可以帮助减轻收集大量带有监督信息的示例的负担。考虑少量样本图像分类任务（ $\scriptstyle T$ ）[One-shot learning of object categories]。图像分类精度（ $\scriptstyle P$ ）随目标类别T的每个类别的少量标记图像获得的E以及从其他类别中提取的先验知识（例如原始图像到共同训练）而提高。成功完成此任务的方法通常具有较高的通用性。因此，它们可以轻松地应用于许多样本的任务。

image.png

与表1相比，表2在“经验 $\scriptstyle E$ ”下有一个额外的列，标记为由于 $\scriptstyle E$ 仅包含几个与 $\scriptstyle T$ 直接相关的受监管信息的样本，这也就很自然，常见的受监管学习方法常常在FSL问题上失败，因此，FSL方法通过结合可用的受监管信息使对目标 $\scriptstyle T$ 的学习变得可行在 $\scriptstyle E$ 中具有一些先验知识，即“学习者在查看样本之前具有的有关未知功能的任何信息” [Quantifying prior determination knowledge using the PAC learning model]。 FSL方法的一种典型类型是贝叶斯学习[One-shot learning of object categories，Human-level concept learning through probabilistic program induction]。它结合了提供的训练集 $\scriptstyle D_{train}$ 和一些先验概率分布，这些概率分布在给出 $\scriptstyle D_{train}$ 之前就可用[Pattern Recognition and Machine Learning]。

备注1.当E中只有一个带有监督信息的样本时，FSL被称为单发学习[Learning feed-forward one-shot learners，One-shot learning of object categories，Matching networks for one shot learning]。当E不包含任何带有目标T监督信息的样本时，FSL成为零次学习问题（ZSL）[Learning to detect unseen object classes by between-class attribute transfer]。由于目标类不包含带有监督信息的示例，因此ZSL要求E包含其他模态（例如属性，WordNet和稀有对象识别任务中使用的单词嵌入）中的信息，以便传递一些监督信息并使学习成为可能。

2.2相关的学习问题

在本节中，我们讨论一些相关的机器学习问题。阐明了与FSL的相关性和差异。

•弱监督学习[A brief introduction to weakly supervised learning]从仅包含弱监督（例如不完整，不精确，不准确或嘈杂的受监督信息）的经验 $\scriptstyle E$ 中学习。与FSL最相关的问题是缺乏监督的弱监督学习，其中只有少量样本具有监督信息。根据是oracle还是人类利用干预，可以进一步将其分为以下几类：

–半监督学习 Semi-supervised learning literature survey]，它从E中的少量标记样本和（通常是大量）未标记样本中学习。示例应用是文本和网页分类。阳性无标记学习[Positive unlabeled learning for data stream classification]是半监督学习的一种特殊情况，其中仅给出阳性和未标记的样本。例如，要推荐社交网络中的朋友，我们仅根据朋友列表了解用户的当前朋友，而他们与其他人的关系是未知的。
–主动学习[Active learning literature survey]，它选择信息量丰富的未标记数据，以向oracle查询输出 $\scriptstyle y$ 。通常用于注释标签价格昂贵的应用，例如行人检测。

根据定义，具有不完全监督的弱监督学习仅包括分类和回归，而FSL还包括强化学习问题。此外，在不完全监督的情况下，弱监督学习主要使用未标记的数据作为E中的附加信息，而FSL利用了各种先验知识，例如预训练模型，来自其他领域或方式的监督数据，并且不限于使用未标记的数据。因此，只有当先验知识是未标记的数据并且任务是分类或回归时，FSL才成为弱监督学习问题。

•学习失衡[Learning from imbalanced data]从经验 $\scriptstyle E$ 中学习y的分布偏斜。当很少使用 $\scriptstyle y$ 的某些值时（例如在欺诈检测和巨灾预测应用程序中），就会发生这种情况。它会训练和测试以在所有可能的 $\scriptstyle y$ 中进行选择。相比之下，FSL通过一些样本对 $\scriptstyle y$ 进行训练和测试，同时可能会将其他 $\scriptstyle y$ 作为学习的先验知识。

•迁移学习[A survey on transfer learning]将知识从训练数据丰富的源域/任务转移到缺乏训练数据的目标域/任务。它可用于跨域推荐，跨时间段，空间和移动设备的WiFi本地化等应用。域适应[Analysis of representations for domain adaptation]是一种迁移学习，其中源/目标任务相同，但源/目标域不同。例如，在情感分析中，源域数据包含电影的客户评论，而目标域数据包含日用品的客户评论。迁移学习方法在FSL [Multi-content GAN for few-shot font style transfer，Feature space transfer for data augmentation，Label efficient learning oftransferable representations acrosss domains and tasks]中得到了广泛使用，其中先验知识从源任务转移到了少样本任务。

•元学习[Learning to learn using gradient descent]通过提供的数据集和元学习者跨任务提取的元知识来改进新任务 $\scriptstyle T$ 的 $\scriptstyle P$ 。具体地，元学习者逐渐学习跨任务的通用信息（元知识），并且学习者使用任务特定信息将元学习者概括为新任务 $\scriptstyle T$ 。它已成功应用于学习优化器[Learning to learn by gradient descent by gradient descent、Learning Gradient Descent: Better Generalization and Longer Horizons]，协作过滤中的冷启动问题[A meta-learning perspective on cold-start recommendations for items]和自然语言指导策略等问题中。元学习方法可用于处理FSL问题。如第4节和第5节所示，元学习器被视为指导每个特定FSL任务的先验知识。附录A中提供了元学习的正式定义及其如何用于FSL问题。

2.3核心问题

在任何机器学习问题中，通常都存在预测错误，并且无法获得完美的预测。在本节中，我们说明了有监督机器学习中基于错误分解的FSL的核心问题[The tradeoffs of large scale learning，Optimization methods for large-scale machine learning]。该分析适用于FSL监督学习，包括分类和回归，还可以为理解FSL强化学习提供见解。

2.3.1 经验风险最小化

给定假设 $\scriptstyle h$ ，我们希望将其预期风险 $\scriptstyle R$ 最小化， $\scriptstyle R$ 是相对于 $\scriptstyle p（x，y）$ 测得的损失。特别，

image.png

由于 $\scriptstyle p（x，y）$ 是未知的，因此存在经验风险（这是 $\scriptstyle I$ 个样本的训练集 $\scriptstyle D_{train}$ 上样本损失的平均值）

image.png

通常用作 $\scriptstyle R（h）$ 的代理，从而使经验风险最小化[Foundations of Machine Learning，Principles of risk minimization for learning theory]（可能有一些调节器）。为了说明，令：

• $\scriptstyle \hat{h}$ = $\scriptstyle \arg \min_h R(h)$ 是最小化预期风险的函数;
• $\scriptstyle h^{*}=\arg \min _{h \in \mathcal{H}} R(h)$ 是在 $\scriptstyle \mathcal {H}$ 最小化预期风险的函数;
• $\scriptstyle h_{I}=\arg \min _{h \in \mathcal{H}} R_{I}(h)$ 是在 $\scriptstyle \mathcal {H}$ 最小化经验风险的函数.

由于 $\scriptstyle \hat{h}$ 是未知的，因此必须将其近似某个 $\scriptstyle h \in \mathcal{H}$ 。 $\scriptstyle h ^∗$ 是 $\scriptstyle \mathcal{H}$ 中 $\scriptstyle \hat{h}$ 的最佳近似值，而 $\scriptstyle h_I$ 是通过经验风险最小化获得的 $\scriptstyle \mathcal{H}$ 中的最佳假设。为简单起见，我们假设 $\scriptstyle \hat{h}，h_ ∗$ 和 $\scriptstyle h_I$ 是唯一的。总误差可分解为[The tradeoffs of large scale learning，Optimization methods for large-scale machine learning]：

image.png

对 $\scriptstyle D_{train}$ 的随机选择的期望。近似误差 $\scriptstyle \mathcal{E}_{\mathrm{app}}(\mathcal{H})$ 衡量 $\scriptstyle \mathcal{H}$ 中的函数可以接近最佳假设 $\scriptstyle \hat{h}$ 的程度，而估计误差 $\scriptstyle \mathcal{E}_{\mathrm{est}}(\mathcal{H}, I)$ 衡量将经验风险 $\scriptstyle R_I（h）$ 最小化而不是预期风险在 $\scriptstyle \mathcal{H}$ 中的 $\scriptstyle R(h)$ 。
如图所示，总误差受 $\scriptstyle \mathcal{H}$ （假设空间）和 $\scriptstyle I$ （ $\scriptstyle D_{train}$ 样本的数量）。换句话说，可以从（i）提供 $\scriptstyle D_{train}$ 的数据；（ii）确定 $\scriptstyle \mathcal{H}$ 的模型；（iii）搜索适合 $\scriptstyle D_{train}$ 的最优 $\scriptstyle h_{I} \in \mathcal{H}$ 的算法的角度尝试学习减少总误差

2.3.2 不可靠的经验风险最小化器

通常，可以通过使用更多样本[The tradeoffs of large scale learning，Optimization methods for large-scale machine learning、The Elements of Statistical Learning:data mining,inference,and prediction]来减少 $\scriptstyle \mathcal{E}_{\mathrm{est}}(\mathcal{H}, I)$ 。因此，当有足够的带有监督信息的训练数据时（即， $\scriptstyle I$ 是大的），经验风险最小化器 $\scriptstyle h_I$ 可以为 $\scriptstyle \mathcal{H}$ 中的 $\scriptstyle h$ 提供最佳的 $\scriptstyle R（h ^*）$ 近似值 $\scriptstyle R（h_I）$ 。

然而在FSL中，可用样本 $\scriptstyle I$ 的数量很少。然后，经验风险 $\scriptstyle R_I（h）$ 与预期风险 $\scriptstyle R（h）$ 的近似值相差甚远，并且由此产生的经验风险最小化指标 $\scriptstyle h_I$ 过拟合。的确，这是FSL监督学习的核心问题，即经验风险最小化不再可靠。因此，FSL困难得多。图1显示了学习量与训练量足够少的比较。

Fig. 1. Comparison of learning with sufficient and few training samples.

2.4 分类法

为了减轻在FSL监督学习中具有不可靠的经验风险最小化因素 $\scriptstyle h_I$ 的问题，必须使用先验知识。基于使用先验知识对哪个方面进行了增强，可以将现有的FSL工作分为以下几个方面（图2）。

Fig. 2. Different perspectives on how FSL methods solve the few-shot problem.

•数据。这些方法使用先验知识来增强 $\scriptstyle D_{train}$ ，并将样本数量从 $\scriptstyle I$ 增加到 $\scriptstyle \tilde{I}$ ，其中 $\scriptstyle \tilde{I} \gg I$ 。然后，可以在扩增后的数据上使用标准的机器学习模型和算法，并可以得到更准确的经验风险最小化因子 $\scriptstyle h_{\tilde{I}}$ （图2（a））。
•模型。这些方法使用先验知识来约束 $\scriptstyle \mathcal{H}$ 的复杂度，从而导致更小的假设空间 $\scriptstyle \tilde{H}$ 。如图2（b）所示，如图2（b）所示，灰色区域没有考虑进行优化，因为根据先验知识，它们不大可能包含最佳 $\scriptstyle h ^*$ 。对于这个较小的 $\scriptstyle \tilde{H}$ ， $\scriptstyle D_{train}$ 足以学习可靠的 $\scriptstyle h_I$ [43，86，99]。
•算法。这些方法使用先验知识来搜索参数化 $\scriptstyle \mathcal{H}$ 中最佳假设 $\scriptstyle h ^∗$ 的 $\scriptstyle \theta$ 。先验知识通过提供良好的初始化（图2（c）中的灰色三角形）或指导搜索步骤（灰色来改变搜索策略）。图2（b）中的虚线）。对于后者，结果搜索步骤受先验知识和经验风险最小化因素的影响。

因此，现有作品可以分类为统一的分类法，如图3所示。我们将在以下各节中详细介绍每个类别。

Fig. 3. A taxonomy of FSL methods based on the focus of each method

3 数据

本节中的FSL方法使用先验知识来增强数据 $\scriptstyle D_{train}$ ，以便丰富 $\scriptstyle E$ 中的受监管信息。使用扩充样本集，数据足以获得可靠的 $\scriptstyle h_I$ （图4）。

通过手工制定的规则进行的数据扩充通常用作FSL方法中的预处理。他们可以引入不同种类的不变性以供模型捕获。例如，在图像上，可以使用平移[One-shot unsupervised cross domain translation、Human-level concept learning through probabilistic program induction、Meta-learning with memory-augmented neural networks、Attentive recurrent comparators]，翻转[Low-shot learning with imprinted weights、Attentive recurrent comparators
]，剪切[Attentive recurrent comparators]，缩放[Human-level concept learning through probabilistic program induction、Fine-grained visual categorization using meta-learning optimization with sample selection of auxiliary data]，反射[Towards a neural statistician、CLEAR: Cumulative learning for one-shot one-class image recognition]，裁剪[Low-shot learning with imprinted weights， Fine-grained visual categorization using meta-learning optimization with sample selection of auxiliary data]和旋转[Meta-learning with memory-augmented neural networks，Matching networks for one shot learning]。但是，设计这些规则在很大程度上取决于领域知识，并且需要昂贵的人工成本。此外，扩充规则可以特定于数据集，从而使其难以应用于其他数据集。而且，人类不可能列举出所有可能的不变性。因此，手动数据扩充不能完全解决FSL问题[One-shot unsupervised cross domain translation、Towards a neural statistician、CLEAR: Cumulative learning for one-shot one-class image recognition、Human-level concept learning through probabilistic program induction、Meta-learning with memory-augmented neural networks、Attentive recurrent comparators]。

除了这些手工制定的规则，我们还将在以下更高级的数据扩充中进行回顾方法。根据要转换并添加到 $\scriptstyle D_{train}$ 的样本，我们将这些方法分类，如表3所示。

Fig. 4. Solving the FSL problem by data augmentation.

image.png

3.1 基于训练数据转换样本

此策略通过将每个 $\scriptstyle \left(x_{i}, y_{i}\right) \in D_{\text {train }}$ 转换为多个具有变化的样本来增强 $\scriptstyle D_{train}$ 。转换过程作为先验知识包含在经验E中，以便生成其他样本。早期的FSL论文[Learning from one example through shared densities on transforms]通过将每个样本与其他样本反复对齐，从相似的类中学习了一组几何变换。将学习到的变换应用于每个 $\scriptstyle （x_i，y_i）$ ，以形成一个大数据集，然后可以通过标准机器学习方法来学习该数据集。类似地，从[Delta Encoder: An effective sample synthesis method for few-shot object recognition]中的相似类中学习了一组自动编码器，每个自动编码器代表一个类内可变性。通过将习得的变化量添加到 $x_i$ 来生成新样本。在[Low-shot visual recognition by shrinking and hallucinating features]中，通过假设所有类别在样本之间共享一些可变换的可变性，可以学习单个变换函数，将从其他类别学习到的样本对之间的差异转移到 $\scriptstyle （x_i，y_i）$ 。在[One-shot learning of scene locations via feature trajectory transfer]中，不是枚举成对的变量，而是使用从大量场景图像中获悉的一组独立的属性强度回归将每个 $\scriptstyle x_i$ 转换为几个样本，并将原始 $\scriptstyle x_i$ 的标签分配给这些新样本。在[One-shot learning of scene locations via feature trajectory transfer]的基础上进行了改进，在[ Feature space transfer for data augmentation]中，连续属性子空间用于向 $\scriptstyle x$ 添加属性变化。

3.2 基于弱标注或无标注数据转换样本

此策略通过从标记弱或未标记的大数据集中选择带有目标标记的样本来增强 $\scriptstyle D_{train}$ 。例如，在用监视摄像机拍摄的照片中，有人，汽车和道路，但没有一个被标记。另一个示例是一段较长的演示视频。它包含说话者的一系列手势，但是没有一个被明确注释。由于此类数据集包含样本的较大变化，因此将其增加到 $\scriptstyle D_{train}$ 有助于描述更清晰的 $\scriptstyle p（x，y）$ 。此外，由于不需要人工来标记，因此收集这样的数据集更加容易。但是，尽管收集成本很低，但主要问题是如何选择带有目标标签的样本以增加到 $\scriptstyle D_{train}$ 。在[Domain-adaptive discriminative one-shot learning of gestures]中，为 $\scriptstyle D_{train}$ 中的每个目标标签学习了一个示例SVM，然后将其用于从弱标签数据集中预测样本的标签。然后将具有目标标签的样品添加到 $\scriptstyle D_{train}$ 中。在[Low-shot learning with large-scale diffusion]中，标签传播直接用于标记未标记的数据集，而不是学习分类器。在[Exploit the unknown gradually: One-shot video-based person re-identification by stepwise learning]中，采用渐进策略来选择内容丰富的未标记样品。然后为选定的样本分配伪标签，并用于更新CNN。

3.3 基于类似数据集转换样本

此策略通过聚合和改编来自相似但较大的数据集中的输入输出对来增强 $\scriptstyle D_{train}$ 。聚集权重通常基于样本之间的某种相似性度量。在[Improving one-shot learning through fusing side information]中，它从辅助文本语料库中提取聚合权重。由于这些样本可能不是来自目标FSL类，因此直接将汇总样本增加到 $\scriptstyle D_{train}$ 可能会产生误导。因此，生成对抗网络（generative adversarial network -GAN）[Generative adversarial nets]旨在从许多样本的数据集中生成难以区分的合成聚合的 $\scriptstyle \tilde{x}$ [Low-shot learning via covariance-preserving adversarial augmentation networks]。它有两个
生成器，一个将少数类别的样本映射到大规模类别，另一种将大型类别的样本映射到少数类别（以弥补GAN训练中样本的不足）。

3.4 讨论和总结

使用哪种扩充策略的选择取决于应用程序。有时，对于目标任务（或类），存在大量弱监督或未标记的样本，但由于收集注释数据和/或计算成本高昂（这对应于在第2.1节）。在这种情况下，可以通过转换标记较弱或未标记的数据集中的样本来执行增强。当难以收集大规模的未标记数据集，但是少量类别具有某些相似类时，可以从这些相似类中转换样本。如果只有一些学习的转换器而不是原始样本可用，则可以通过转换 $\scriptstyle D_{train}$ 中的原始样本来进行扩充。

通常，通过增加 $\scriptstyle D_{train}$ 解决FSL问题非常简单明了。通过利用目标任务的先验信息来扩充数据。另一方面，通过数据扩充来解决FSL问题的弱点在于，扩充策略通常是针对每个数据集量身定制的，并且不能轻易地用于其他数据集（尤其是来自其他域的数据集）。最近，提出了自动学习用于深度网络训练的增强策略的AutoAugment [AutoAugment:Learning Augmentation Strategies from Data]来解决这个问题。除此之外，现有的方法主要是针对图像设计的，因为生成的图像可以很容易地被人目视评估。相反，文本和音频涉及语法和结构，并且较难生成。在[EDA: Easy data augmentation techniques for boosting performance on text classification tasks]中报告了最近对文本使用数据增强的尝试。

文献原文：
Generalizing from a Few Examples: A Survey on Few-Shot
Learning
Github地址