A Survey on Transfer Learning—杨强教授

“第一次正儿八经看论文,如果可以,我希望我没有做过这种翻译论文的蠢事。”

原文

摘要 许多机器学习和数据挖掘算法中的一个主要假设是,训练数据和未来数据必须处于相同的特征空间,并具有相同的分布。然而,在许多现实世界的应用中,这个假设可能不成立。例如,我们有时在一个感兴趣的领域有一个分类任务,但我们只在另一个感兴趣的领域有足够的训练数据,后者的数据可能在一个不同的特征空间或遵循不同的数据分布。在这种情况下,如果能成功地进行知识迁移,就能避免许多昂贵的数据标记工作,从而大大改善学习的性能。近年来,迁移学习作为一种新的学习框架出现,以解决这一问题。本调查主要是对目前分类、回归和聚类问题的迁移学习的进展进行分类和回顾。在这次调查中。
我们讨论了迁移学习和其他相关机器学习技术之间的关系,如领域适应、多任务学习和样本选择偏差,以及共变量迁移。我们还探讨了迁移学习研究中一些潜在的未来问题。

1 介绍

数据挖掘和机器学习技术已经在许多知识工程领域取得了巨大的成功 包括分类、回归和聚类在内的许多知识工程领域取得了巨大成功(例如。 [1], [2]). 然而,许多机器学习方法只有在一个共同的假设下才能很好地工作 只有在一个共同的假设下才会有良好的效果:训练数据和测试数据都来自同一个特征空间,而且 取自相同的特征空间和相同的分布。当分布发生变化时,大多数统计模型需要 使用新收集的训练数据从头开始重建。在 在许多现实世界的应用中,重新收集所需的训练数据是昂贵的或不可能的。重新收集所需的训练数据并重建模型的成本很高,甚至不可能。因此 如果能减少重新收集训练数据的需要和努力就更好了。训练数据。在这种情况下,知识迁移或任务域之间的迁移 学习将是可取的。在知识工程中可以找到许多例子 在这些例子中,迁移学习确实是有益的。一个例子是 一个例子是网络文档分类[3], [4], [5], 我们的目标是将一个给定的网络文档归入几个预定义的类别。我们的目标是将一个给定的网络文档分类到几个预定义的类别。作为网络文档分类领域的一个例子(见,例如,[6]),标记的例子可能是大学的网页,这些网页与通过以前的人工标记工作获得的类别信息相关。对于一个新创建的网站的分类任务,其数据特征或数据分布可能是不同的,可能缺乏标记的训练数据。因此,我们可能无法将在大学网站上学习到的网页分类器直接应用到新网站上。在这种情况下,如果我们能够将分类知识迁移到新的领域中去,将会很有帮助。在数据容易过时的情况下,可能会出现迁移学习的需要。在这种情况下,在一个时间段内获得的标记数据在以后的时间段内可能不会遵循相同的分布。例如,在室内WiFi定位问题中,其目的是根据以前收集的WiFi数据来检测用户的当前位置。在室内WiFi定位问题中,其目的是根据先前收集的WiFi数据检测用户的当前位置,为建筑物定位校准WiFi数据是非常昂贵的。校准WiFi数据以在大规模的环境中建立定位模型是非常昂贵的,因为用户需要 标记大量的 因为用户需要在每个地点标记大量的WiFi信号数据集合。然而 WiFi信号强度值可能是时间、设备或其他动态因素的一个函数。或其他动态因素。在一个时间段内训练的模型 或在一个设备上训练的模型可能导致在另一个时间段或在另一个设备上的位置估计性能 在另一个时间段或另一个设备上的位置估计性能被 降低。为了减少重新校准的工作量,我们可能希望 适应在一个时间段(源域)训练的定位模型,以适应新的时间段。源域)中训练出来的定位模型用于新的时间段(目标域),或者 将在一个移动设备上训练的定位模型(源域)调整为一个新的移动设备(目标域)。源域)训练的定位模型,以适应新的移动设备(目标域)。如同在[7]中所做的那样。

作为第三个例子,考虑情感分类的问题。的问题,我们的任务是自动将一个产品的评论分类,比如一个品牌的相机。我们的任务是将对某一产品(如某一品牌的相机)的评论自动分类为积极的 和负面意见。对于这个分类任务,我们需要 首先收集许多关于该产品的评论并对其进行注释。然后,我们将在这些评论上训练一个分类器,并加上它们的 相应的标签。由于评论数据的分布 在不同类型的产品中的分布可能非常不同,为了保持良好的分类性能 为了保持良好的分类性能,我们需要收集 为了训练每个产品的评论分类模型,我们需要收集大量的标签数据。 然而,这种数据标签化的过程可能非常昂贵。为了减少 为了减少对各种产品的评论进行标注的工作量,我们可能要 为了减少对各种产品评论的注释工作,我们可能想调整在一些产品上训练的分类模型,以帮助学习一些产品的分类模型。的分类模型来帮助学习其他产品的分类模型。产品的分类模型。在这种情况下,迁移学习可以节省大量的 显著节省标签工作[8] 。

在这篇调查文章中,我们对机器学习和数据挖掘领域开发的分类、回归和聚类的迁移学习做了一个全面的概述。在机器学习文献中已经有大量关于强化学习的迁移学习的工作(例如,[9],[10])。然而,在本文中,我们只关注与数据挖掘任务关系更密切的分类、回归和聚类问题的迁移学习。通过调查,我们希望为数据挖掘和机器学习界提供一个有用的资源。本调查的其余部分组织如下。在接下来的 在接下来的四节中,我们首先给出了一个总体概述,并定义了 一些我们将在后面使用的符号。然后,我们简要地调查了 迁移学习的历史,给出迁移学习的统一定义 的统一定义,并将迁移学习分为三个不同的 场景(见表2和图2)。对于每个环境,我们 对不同的方法进行回顾,详细情况见表3。之后 之后,在第6节,我们回顾了目前关于 "负迁移 "的一些研究。负面迁移 "的研究,即知识迁移对目标学习产生负面影响的情况。迁移对目标学习有负面影响。在第7节中,我们介绍了迁移学习的一些成功应用。我们介绍了迁移学习的一些成功应用 并列出了一些已发表的数据集和软件工具箱,用于迁移学习研究。迁移学习的研究。最后,我们在文章的结尾处 最后,我们在第8节中讨论了未来的工作。

2 综述

2.1 迁移学习的简史

传统的数据挖掘和机器学习算法使用统计模型对未来的数据进行预测,这些模型是在以前收集的有标签或无标签的训练数据上训练出来的。 数据[11], [12], [13]。半监督分类[14], [15], [16], [17]通过利用大量的未标记数据和少量的标记数据,解决了标记数据可能太少而无法建立一个好的分类器的问题。对于不完美数据集的监督学习和半监督学习的变体已经被研究,例如,Zhu和Wu[18]研究了如何处理嘈杂的classlabel问题。Yang等人考虑了成本敏感的学习[19],当时可以对未来的样本进行额外的测试。然而,他们中的大多数人都假设有标签的数据和无标签的数据的分布是相同的。相反,迁移学习允许训练和测试中使用的领域、任务和分布是不同的。在现实世界中,我们观察到许多迁移学习的例子。例如,我们可能发现,学习识别苹果可能有助于识别梨子。同样,学习弹奏电子琴可能有助于促进学习钢琴。对迁移学习的研究是出于这样一个事实:人们可以聪明地应用以前学过的知识来更快地解决新问题,或者有更好的解决方案。在NIPS-95关于 "学会学习 "1的研讨会上,讨论了机器学习领域中迁移学习的基本动机,该研讨会集中讨论了对终身机器学习方法的需求,即保留和重用以前学到的知识。自1995年以来,关于迁移学习的研究以不同的名称吸引了越来越多的关注:学会学习、终身学习、知识迁移、归纳迁移、多任务学习、知识巩固、情境敏感学习、基于知识的归纳性偏差、元学习和增量/累积学习[20]。其中,与迁移学习密切相关的学习技术是多任务学习框架[21],它试图学习 它试图同时学习多个任务,即使它们是不同的。多任务学习的一个典型方法是发现 共同的(潜在的)特征,这些特征可以使每个单独的任务受益。

2005年,美国国防部高级研究计划局(DAA)的广泛机构公告(BAA)05-29 国防高级研究计划局(DARPA)的 信息处理技术办公室(IPTO)2给出了迁移学习的新任务 迁移学习的新任务:一个系统能够 识别和应用在以前的任务中学到的知识和技能 任务的能力。在这个定义中,迁移学习的目的是 从一个或多个源任务中提取知识,并将知识应用于目标任务。将这些知识应用到目标任务中。与多任务学习不同的是 学习,而不是同时学习所有的源任务和目标任务。迁移学习最关心的是目标任务 任务。在迁移学习中,源任务和目标任务的作用不再是 在迁移学习中不再是对称的。

图1显示了传统学习技术和迁移学习技术在学习过程中的区别。传统学习和迁移学习技术的学习过程。正如 我们可以看到,传统的机器学习技术试图从头开始学习 每个任务,而迁移学习技术则试图 而迁移学习技术则是在目标任务的高质量训练数据较少的情况下,将之前一些任务中的知识迁移到目标任务中。当目标任务拥有较少的高质量训练数据时,迁移学习技术试图将以前的知识迁移到目标任务上。

image.png

今天,迁移学习方法出现在一些顶级会议中,最显著的是数据挖掘(例如ACM KDD、IEEE ICDM和PKDD)、机器学习(例如ICML、NIPS、ECML、AAAI和IJCAI)以及机器学习和数据挖掘的应用(ACM SIGIR、WWW和ACL)。在我们给出迁移学习的不同分类之前,我们首先描述一下迁移学习的分类。在我们给出迁移学习的不同分类之前,我们首先描述一下本文中使用的符号。本文所使用的符号。

2.2 符号和定义

懒得写

2.3 迁移学习技术的分类

在迁移学习中,我们有以下三个主要研究问题 问题。(1)何处迁移(2)如何迁移;(3)何时迁移。

"何处迁移 "问的是哪部分知识可以 可以跨领域或跨任务迁移。有些知识是 一些知识是个别领域或任务所特有的,而一些知识 可能是不同领域之间的共同知识,因此它们可能 有助于提高目标领域或任务的绩效。在 发现哪些知识可以被迁移后,需要开发学习 需要开发学习算法来迁移这些知识。这与 "如何迁移 "的问题相呼应。

"何时迁移 "问的是在哪些情况下,迁移 技能应该在哪些情况下进行。同样地,我们也想知道 在哪些情况下,知识不应该被迁移。在 在某些情况下,当源域和目标域 在某些情况下,当源域和目标域互不相干时,暴力迁移可能是不成功的。在最坏的情况下,它甚至可能损害目标域的学习性能。在目标领域的学习表现,这种情况通常被称为 这种情况通常被称为负迁移。目前大多数关于迁移的工作 学习的工作重点是 "迁移什么 "和 "如何迁移"。隐含地假设源域和目标域是 彼此之间的关系。然而,如何避免负迁移 是一个重要的开放性问题,在未来会引起越来越多的关注。越来越多的人关注。

基于迁移学习的定义,我们总结了 我们在表1中总结了传统机器学习和各种迁移学习设置之间的关系。我们将迁移学习分为三个子设置,即归纳式迁移学习、反式迁移学习和无监督式迁移学习。迁移学习,基于源和目标领域和任务之间的不同情况。我们根据源领域和目标领域以及任务之间的不同情况,将迁移学习分为三个子设置,即归纳迁移学习(Inductive Transfer Learning)、转导迁移学习(Transductive Transfer Learning)和无监督迁移学习(Unsupervised Transfer Learning)。

image.png
  1. 归纳迁移学习设置中,无论源域和目标域是否相同,目标任务都与源任务不同。在这种情况下,需要目标域中的一些标记数据来诱导出一个客观的预测模型f_T(·)以便在目标域中使用。此外,根据源域中有标签数据和无标签数据的不同情况,我们可以进一步将归纳迁移学习设置分为两种情况。
    1. 在源域中有大量的标记数据可用。在这种情况下,归纳迁移学习设置类似于多任务学习设置。然而,归纳迁移学习设置的目的只是通过迁移源任务中的知识来实现目标任务的高性能,而多任务学习则试图同时学习目标和源任务。
    2. 在源域中没有标记的数据可用。在这种情况下,归纳迁移学习设置与自学学习设置类似,后者是由Raina等人[22]首次提出的。在自学学习设置中,源域和目标域之间的标签空间可能是不同的,这意味着源域的侧面信息不能被直接使用。因此,它类似于归纳迁移学习的设置,即源域的标签数据不可用。
  2. 转换学习环境中,源任务和目标任务是相同的,而源域和目标域是不同的。在这种情况下,目标域中没有标记的数据,而源域中有大量的标记数据。此外,根据源域和目标域之间的不同情况,我们可以进一步将过渡性迁移学习设置分为两种情况。
    1. 源域和目标域之间的特征空间不同,X_S\neq X_T.
    2. 领域之间的特征空间是相同的,X_S=X_T,但输入数据的边际概率分布是不同的,P(X_S) \neq P(X_T ).。归纳迁移学习的后一种情况与文本分类中知识迁移的领域适应性[23]和样本选择偏差[24]或共同变量迁移[25]有关,其假设是相似的.
    3. 最后,在无监督的迁移学习环境中。类似于归纳迁移学习的设置,目标 任务与源任务不同,但与源任务相关。然而,无监督迁移学习的重点在于 解决目标领域中的无监督学习任务。如聚类、降维和密度 估计[26], [27]。在这种情况下,源域和目标域都没有标记的 在这种情况下,源域和目标域在训练中都没有标记的数据可用。

表2和图2总结了迁移学习的不同设置和相关领域之间的关系。

image.png
image.png

在上述三个不同的环境中,迁移学习的方法可以根据 "迁移什么 "归纳为四个案例。表3显示了这四种情况和简要描述。第一种情况可以称为基于实例的迁移学习(或实例迁移)方法[6], [28], [29], [30], [31], [24], [32], [33], [34], [35], 它假定源域中的某些部分数据可以通过重新加权而被重用到目标域中学习。实例再加权和重要性采样是这方面的两个主要技术。

image.png

第二种情况可以称为特征表示迁移法[22], [36], [37], [38], [39], [8], [40], [41], [42], [43], [44] 。这种情况的直观想法是为目标领域学习一个 "好的 "特征表示。在这种情况下,用于跨域迁移的知识被编码到学习的特征表示中。有了新的特征表征,目标任务的性能有望得到明显改善。

第三种情况可称为参数迁移方法[45], [46], [47], [48], [49], 它假定源任务和目标任务共享一些参数或模型的超参数的先验分布。迁移的知识被编码为共享参数或先验。因此,通过发现共享参数或先验,知识可以跨任务迁移。

最后,最后一种情况可以被称为关系知识迁移问题[50],它涉及到关系域的迁移 关系域的迁移学习。这种情况的基本假设是 这方面的基本假设是,源域和目标域中的数据之间存在某种关系。源域和目标域中的数据之间的关系是相似的。因此,要迁移的知识 要迁移的知识是数据之间的关系。最近。统计关系学习技术在这种情况下占主导地位 [51], [52]. 表4显示了在每个迁移学习环境中使用不同方法的情况 在每个迁移学习环境中使用的情况。我们可以看到 归纳迁移学习环境已经在许多研究工作中得到了研究。而无监督迁移学习则是一个相对较新的研究课题,只对无监督迁移学习进行了研究。是一个相对较新的研究课题,只在特征重构的背景下进行研究。在特征呈现-迁移的情况下进行研究。此外 此外,特征重现-迁移问题已被提出到所有三种迁移学习环境中。提出了所有三种迁移学习的设置。然而。参数迁移和关系知识迁移的方法只在归纳式学习中被研究。的方法只在归纳性迁移学习中被研究过。我们将在下文中详细讨论。

image.png

3 归纳迁移学习(Inductive Transfer Learning)

定义2归纳迁移学习)给定一个源域D_S和一个学习任务T_S,一个目标域D_T和一个学习任务T_T,归纳迁移学习旨在利用D_ST_S中的知识帮助提高D_T中目标预测函数f_T(·)的学习,其中T_S\neq T_T

基于上述归纳迁移学习的定义,目标域中的一些标记数据需要作为训练数据来诱导目标预测函数。如第2.3节所述,这种设置有两种情况。(1)源域的标记数据是可用的;(2)源域的标记数据不可用,而源域的无标记数据是可用的。这种情况下的大多数迁移学习方法都集中在前一种情况。

3.1 实例知识迁移学习

归纳迁移学习设置的实例迁移方法在直觉上很有吸引力:虽然源域数据不能直接被重用,但有某些部分的数据仍然可以和目标域的一些标注数据一起被重用。

Dai等人[6]提出了一种提升算法TrAdaBoost,它是AdaBoost算法的扩展,用于解决归纳迁移学习问题。TrAdaBoost假设源域和目标域数据使用完全相同的特征和标签集,但两个域的数据分布不同。此外,TrAdaBoost还假设,由于源域和目标域之间的分布不同,一些源域的数据可能对目标域的学习有用,但其中一些可能没有,甚至可能是有害的。它试图迭代地对源域数据进行重新加权,以减少 "坏 "源数据的影响,同时鼓励 "好 "源数据为目标域做出更大的贡献。在每一轮迭代中,TrAdaBoost在加权的源数据和目标数据上训练基础分类器。误差只在目标数据上计算。此外,TrAdaBoost使用与AdaBoost相同的策略来更新目标域中分类错误的例子,同时使用与AdaBoost不同的策略来更新源域中分类错误的源例子。TrAdaBoost的理论分析也在[6]中给出。

Jiang和Zhai[30]提出了一种启发式方法,根据条件概率P(y_T |x_T)P(y_S|x_S)之间的差异,从源域中删除 "误导性 "训练实例。Liao等人[31]提出了一种新的主动学习方法,在源域数据的帮助下,选择目标域的未标注数据进行标注。Wu和Dietterich[53]将源域(辅助)数据整合到SVM框架中,以提高分类性能。

3.2 特征知识迁移

归纳迁移学习问题的特征表示方法旨在寻找 "好的 "特征表示,以最小化领域分歧和分类或回归模型误差。对于不同类型的源域数据,寻找 "好的 "特征表示的策略是不同的。如果源域中有大量的标记数据,可以使用监督学习方法来构建特征表示。这类似于多任务学习领域中常见的特征学习[40]。如果源域中没有标记的数据可用,则建议采用无监督学习方法来构建特征表示。

3.2.1 有监督的特征构建

归纳迁移学习设置的监督特征构建方法与多任务学习中使用的方法类似。其基本思想是学习一个在相关任务中共享的低维表征。此外,学到的新表征也可以减少每个任务的分类或回归模型误差。Argyriou等人[40]提出了一种用于多任务学习的稀疏特征学习方法。在归纳迁移学习的设置中,可以通过解决一个优化问题来学习共同特征,给出的问题如下。
{\underset {A,U}{\operatorname {arg\,min} }}\,{\underset{t∈{T ,S}} \sum{\sum_\limits{i=1}^{n_t}}}L(y_{t_i} ,\langle a_t, U^T x_{t_i}\rangle ) + \gamma\mid \mid A\mid\mid{^2 _{2,1}} \tag{1}

{s.t. \quad U ∈ O_d}\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad

在这个方程中,ST分别表示源域和目标域的任务。A = [a_S, a_T ] ∈R^{d×2}是一个参数的矩阵。U是一个d×d的正交矩阵(映射函数),用于将原始高维数据映射到低维表示。A(r, p)-norm定义为\mid \mid A\mid\mid_{r,p} := (\sum^d_{i=1} \mid \mid a_i\mid \mid^p_r)^{\frac{1}{p}}。优化问题(1)同时估计了低维表示U^T X_T,U^T X_S和模型的参数A。优化问题(1)可以进一步转化为一个等价的凸优化公式,并得到有效的解决。在后续工作中,Argyriou等人[41]提出了一个用于多任务结构学习的矩阵上的谱系正则化框架。

Lee等人[42]提出了一种凸优化算法,用于从相关预测任务的集合中同时学习元优先级和特征权重。元优先权可以在不同的任务之间迁移。Jebara[43]提出用SVM为多任务学习选择特征。Ruckert等人[54]设计了一种基于核的归纳迁移方法,其目的是为目标数据找到一个合适的核。

3.2.2 无监督的特征构建

在[22]中,Raina等人提出应用稀疏编码[55],这是一种无监督的特征构建方法,用于学习迁移学习的高层次特征。这种方法的基本思想包括两个步骤。第一步,通过解决优化问题(2),在源域数据上学习高层次的基向量b = {b1, b2, ..., bs},如下所示:
{\underset{a,b}min}{\sum_{i} \mid\mid x_{S_i}}-{\sum {_j}a^j_{S_i} b_j \mid\mid a_{S_i}\mid\mid_1} \quad \quad\quad\quad \quad \tag{2}

s.t \quad\quad \mid\mid b_j \mid\mid_2 \leq1,\forall j\in 1,...,s \quad\quad\quad\quad\quad\quad\quad

在这个方程中,a^j_{S_i}是输入x_{S_i}的基础b_j的新表示,\beta是平衡特征构造项和正则化项的系数。在学习了基向量b后,在第二步中,在目标域数据上应用优化算法(3)来学习基于基向量b的更高层次的特征。
a^*_{T_i}={\underset{a_{T_i}}{arg\quad min}}{\mid\mid x_{T_i}}-{\sum _j a^j_{T_i}b_j\mid\mid}+{\beta \mid\mid a_{T_i}\mid\mid_1} \quad\quad\quad\quad\quad\quad\quad \tag{3}
最后,判别算法可以应用于具有相应标签的{a∗Ti }s,以训练分类或回归模型,供目标域使用。这种方法的一个缺点是,在优化问题(2)中,在源域学到的所谓高级基向量可能不适合在目标域中使用。

最近,流形学习方法已被用于迁移学习。在[44]中,Wang和Mahadevan提出了一种基于Procrustes分析的无对应关系的流形对齐方法,该方法可用于通过对齐的流形进行跨域知识迁移。

3.3 迁移参数知识

归纳迁移学习设置的大多数参数迁移方法假定相关任务的各个模型应该共享一些参数或超参数的先验分布。本节描述的大多数方法,包括正则化框架和分级贝叶斯框架,都是为了在多任务学习下工作。然而,它们可以很容易地被修改为迁移学习。如上所述,多任务学习试图同时完美地学习源任务和目标任务,而迁移学习的目的只是通过利用源领域的数据来提高目标领域的性能。因此,在多任务学习中,源和目标数据的损失函数的权重是相同的。相反,在迁移学习中,不同领域的损失函数的权重可能是不同的。直观地说,我们可以给目标域的损失函数分配一个较大的权重,以确保我们在目标域能取得更好的性能。

Lawrence和Platt[45]提出了一种高效的算法,称为MT-IVM,它是基于高斯过程(GP)来处理多任务学习的情况。MT-IVM试图通过共享相同的GP先验来学习多个任务的高斯过程参数。Bonilla等人[46]也研究了GP背景下的多任务学习。作者提出使用自由形式的任务协方差矩阵来模拟任务间的依赖关系,其中GP先验被用来诱导任务间的相关性。Schwaighofer等人[47]提议将层次贝叶斯框架(HB)与GP一起用于多任务学习。

除了迁移GP模型的先验参数,一些研究者还提出在正则化框架下迁移SVM的参数。Evgeniou和Pontil[48]将HB的思想借用到SVMs的多任务学习中。所提出的方法假设每个任务的SVMs中的参数w可以被分成两个项。一个是跨任务的通用项,另一个是特定任务的项。

在归纳迁移学习中:
W_S =w_0+v_S\quad and\quad w_T=w_0 + v_T,
其中,w_Sw_T分别是源任务和目标学习任务的SVM的参数。w_0是一个通用参数,而v_Sv_T分别是源任务和目标任务的特定参数。通过假设f_t=w_t·x是任务t的超平面,SVMs在多任务学习情况下的扩展可以写成如下。
{\underset{w_0,c_t,\xi _{t_i}}{min}\quad\quad\quad J(w_0,v_t,\xi_{t_i})\quad\quad\quad\quad\quad\quad\quad\quad\tag{4}} \\ \quad\quad\quad = \sum_{t \in {\{S,T\}}}{\sum^{n_t}_{i=1}\xi_{t_i}}+\frac{\lambda}{2}\sum_{{t\in\{S,T}\}} \mid\mid w_0\mid\mid^2

\quad\quad\quad\quad\quad s.t \quad\quad\quad y_{t_i}(w_0+v_t)·x_{t_i}\geq1-\xi_{t_i},\quad\quad\quad\quad\quad\quad\quad\quad

\quad\quad\quad\quad\quad\quad\quad\quad\quad\xi_{t_i}\geq0,i\in{1,2,3...,n_t}\} and \quad t\in \{S,T\}.\quad\quad

通过解决上述优化问题,我们可以同时学习参数w_0v_Sv_T

一些研究者进一步探讨了参数迁移的方法。Gao等人[49]提出了一个局部加权的集合学习框架,将多个模型结合起来进行迁移学习,其中权重是根据模型对目标域中每个测试实例的预测能力动态分配的。

3.5 迁移关联性知识

与其他三种情况不同的是,关系知识迁移方法处理的是关系域中的迁移学习问题,其中的数据是非i.i.d.,可以用多种关系表示,比如网络数据和社会网络数据。这种方法并不像传统上假设的那样,从每个领域提取的数据是独立和相同分布的(i.i.d)。它试图将数据之间的关系从源域迁移到目标域。在这种情况下,统计关系学习技术被提出来以解决这些问题。

Mihalkova等人[50]提出了一种算法TAMAR,用马尔科夫逻辑网络(MLNs)跨关系域迁移关系知识。MLNs[56]是一个强大的形式主义,它结合了一阶逻辑的紧凑表达能力和概率的灵活性,用于统计关系学习。在MLNs中,关系域中的实体由谓词表示,其关系由一阶逻辑表示。TAMAR的动机是,如果两个域是相互关联的,可能存在连接实体及其关系的映射,从源域到目标域。例如,教授可以被认为是在学术领域扮演类似于工业管理领域的经理的角色。此外,教授和他或她的学生之间的关系类似于经理和他或她的工人之间的关系。因此,可能存在一个从教授到经理的映射,以及从教授与学生关系到经理与工人关系的映射。在这种情况下,TAMAR试图使用为源域学习的MLN来帮助学习目标域的MLN。基本上,TAMAR是一个两阶段的算法。在第一步,基于加权伪似然测量(WPLL),从源MLN到目标域构建一个映射。在第二步,通过FORTE算法[57]对目标域中的映射结构进行修正,FORTE算法是一种用于修正一阶理论的归纳逻辑编程(ILP)算法。修订后的MLN可以作为一个关系模型用于目标域的推理或推理。

在AAAI-2008复杂任务的迁移学习研讨会4上,Mihalkova等人[51]将TAMAR扩展到以单一实体为中心的迁移学习环境中,即目标领域中只有一个实体可用。Davis等人[52]提出了一种基于二阶马尔科夫逻辑形式的关系知识迁移方法。该算法的基本思想是通过用目标域的谓词实例化这些公式,发现源域中带有谓词变量的马尔科夫逻辑公式的结构规律性

4 转导迁移学习(Transductive Transfer Learning)

归纳迁移学习一词最早由Arnold等人提出[58],他们要求源任务和目标任务是相同的,尽管领域可能不同。在这些条件的基础上,他们进一步要求目标领域的所有未标记的数据在训练时都是可用的,但是我们认为这个条件可以放宽;相反,在我们对过渡性迁移学习的定义中,我们只要求在训练时看到部分未标记的目标数据,以便获得目标数据的边际概率。

请注意,"’transductive’ "这个词在使用时有几种含义。在传统的机器学习环境中,过渡性学习[59]指的是所有的测试数据都需要在训练时看到,而且学到的模型不能重用于未来的数据。因此,当一些新的测试数据到来时,它们必须与所有现有的数据一起进行分类。相比之下,在我们对迁移学习的分类中,我们使用术语transductive来强调这样一个概念:在这种类型的迁移学习中,任务必须是相同的,并且在目标领域中必须有一些未标记的数据。

定义3 (Transductive Transfer Learning) 给定一个源域D_S和相应的学习任务T_S,一个目标域D_T和相应的学习任务T_T,Transductive Transfer Learning旨在利用D_ST_S中的知识改进D_T中目标预测函数f_T (\cdot)的学习,其中D_S=T_ST_S=T_T。此外,在训练时必须有一些未标记的目标域数据。

这个定义涵盖了Arnold等人[58]的工作,因为后者考虑了领域适应,其中的差异在于源数据和目标数据的边际概率分布;也就是说,任务是相同的,但领域是不同的。与传统的归纳学习设置类似,其目的是为了最好地利用未标记的测试数据进行学习,在我们的归纳迁移学习下的分类方案中,我们也假设给出一些目标域的未标记数据。在上述过渡性迁移学习的定义中,源任务和目标任务是相同的,这意味着人们可以通过一些未标记的目标域数据来调整在源域中学习到的预测函数,以用于目标域。如第2.3节所述,这种设置可以分成两种情况。(a)源域和目标域之间的特征空间不同,X_S=X_T,(b)域之间的特征空间相同,X_S=X_T,但输入数据的边际概率分布不同,P(X_S)=P(X_T)。这与领域适应和样本选择偏差中的要求类似。下面几节描述的大多数方法都与上述(b)情况有关。

4.1 基于实例的迁移学习

大多数用于过渡性迁移学习的实例转移方法都是以重要性抽样为动机的。为了了解基于重要性抽样的方法在这种情况下会有什么帮助,我们首先回顾一下经验风险最小化(ERM)的问题[60]。一般来说,我们可能希望通过最小化预期风险来学习模型的最佳参数θ∗
\theta *={\underset{\theta \in \Theta}{arg\quad min}} \quad\mathbb E_{(x,y)\in P}\begin{bmatrix}l(x,y,\theta) \end{bmatrix},
其中l(x, y, θ)是一个损失函数,取决于参数θ。 然而,由于很难估计概率分布P,我们换作最小化ERM。
\theta *={\underset{\theta \in \Theta}{arg\,\min}} \quad \frac{1}{n}{\sum^n_{i=1}}\begin{bmatrix}l(x,y,\theta) \end{bmatrix},
其中n是训练数据大小。

在归纳迁移学习的设置中,我们希望通过最小化预期风险来学习目标领域的最佳模型,
\theta^*={\underset{\theta \in \Theta}{arg\,\min}} \quad{\sum_{(x,y)\in D_T}}P(D_T)l(x,y,\theta).
然而,由于在训练数据中没有观察到目标域的标记数据,我们必须从源域数据中学习一个模型来代替。如果P(D_S)=P(D_T ),那么我们可以简单地通过解决以下优化问题来学习模型,以便在目标域使用。
θ^∗ = \underset{θ∈Θ}{\arg\min}\sum_{(x,y)∈D_S}P(D_S)l(x, y, θ).
否则,当P(D_S)=P(D_T )时,我们需要修改上述优化问题,以学习一个对目标领域具有高泛化能力的模型,如下所示
θ^∗ = \underset{θ∈Θ}{\arg\min}\sum_{(x,y)∈D_S}\frac{P(D_T)}{P(D_S)}P(DS)l(x, y, θ) \\\quad\quad≈\underset{θ∈Θ}{\arg\min}\sum^{n_S}_{i=1}\frac{P_T (x_{T_i} , y_{T_i} )}{P_S(x_{S_i} , y_{S_i} )}l(x_{S_i},y_{S_i},θ). \tag{5}
因此,通过给每个实例(x_{S_i} , y_{S_i} )添加不同的惩罚值,加上相应的权重P_T (x{T_i} ,y{T_i} ) P_S (x{S_i} ,y{S_i} ),我们可以学习目标领域的精确模型。此外,由于P(Y_T |X_T ) = P(Y_S|X_S)。因此,P(D_S)P(D_T )之间的差异是由P(X_S)P(X_T )引起的,P_T (x_{T_i} ,y_{T_i} ) P_S (x_{S_i} ,y_{S_i} )= P (x_{S_i} ) P (x_{T_i} )。如果我们能估计出每个实例的P(x_{S_i} )P(x_{T_i} ),我们就能解决过渡性迁移学习问题。存在各种估计P(x_{S_i})P(x_{T_i})的方法。

Zadrozny[24]提出通过构建简单的分类问题来独立估计P(x_{S_i})P(x_{T_i})这两个术语。Fan等人[35]通过使用各种分类器来估计概率比,进一步分析了这些问题。Huang等人[32]提出了一种内核均值匹配(KMM)算法,通过匹配源域数据和目标域数据在再现内核希尔伯特空间(RKHS)中的均值,直接学习P(x_{S_i})P(x_{T_i})。KMM可以被重写为以下二次规划(QP)优化问题。
\min_\beta\quad\quad \frac{1}{2}β^T Kβ − κ^T β \tag{6} \\s.t.\quad β_i ∈ [0, B]\quad and\quad |\sum{^{n_S}_{i=1}}β_i − n_S| ≤ n_S\epsilon
其中K = \left[\matrix{K_{S,S} & K_{S,T}\\K_{T,S}&K_{T,T}}\right]K_{ij} = k(x_i, x_j )K_{S,S}K_{T ,T}分别是源域数据和目标域数据的内核矩阵。κ_i = \frac{n_T}{ n_T}\sum{^{n_T}_{j=1}}k(x_i, x_{T_j} ),其中x_i ∈ X_S\bigcup X_T ,x_{T_j} ∈ X_T

可以证明,β_i =\frac {P (x_{S_i} )}{ P (x_{T_i} )} [32]。使用KMM的一个优点是它可以避免对P(x_{S_i})P(x_{T_i})进行密度估计,当数据集的大小较小时,这种估计是困难的。Sugiyama等人[34]提出了一种被称为Kullback-Leibler重要性估计程序(KLIEP)的算法,基于Kullback-Leibler分歧的最小化,直接估计\frac {P (x_{S_i} )}{ P (x_{T_i} )}。KLIEP可以与交叉验证相结合,分两步自动进行模型选择。(1) 估计源域数据的权重;(2) 在重新加权的数据上训练模型。Bickel等人[33]通过推导内核-逻辑回归分类器将这两个步骤结合在一个统一的框架中。除了样本重加权技术,Dai等人[28]还将传统的Naive Bayesian分类器扩展到归纳迁移学习问题上。关于重要性抽样和共变数转移或样本选择偏差的重新加权方法的更多信息,读者可以参考Quionero-Candela等人最近出版的书[29],也可以参考ICDM-08 5中Fan和Sugiyama的样本选择偏差的教程。

4.2 基于特征的迁移学习

大多数特征表示转移的方法都是在无监督的学习框架下进行的。Blitzer等人[38]提出了一种结构性对应学习(SCL)算法,该算法扩展了[37],利用目标域的未标记数据来提取一些可能减少域间差异的启示性特征。SCL的第一步是在两个领域的未标记数据上定义一组支点特征6(支点特征的数量用m表示)。然后,SCL将这些支点特征从数据中删除,并将每个支点特征作为一个新的标签向量。可以构建m个分类问题。假设每个问题都可以通过线性分类器来解决,如下所示。
f_l(x) = sgn(w^T_l · x), l = 1,...,m
SCL可以学习一个参数矩阵W = [w_1w_2 ...w_m]。在第三步,奇异值分解(SVD)被应用于矩阵W = [w_1w_2 ...w_m]。让W = UDV^T,那么θ = U^T_{[1:h,:]}(h是共享特征的数量)是矩阵(线性映射),其行是W的左上角奇异向量。最后,标准的判别算法可以应用于增强的特征向量来建立模型。增强的特征向量包含所有原始特征xi和新的共享特征θx_i。如[38]所述,如果枢纽特征设计得很好,那么学到的映射θ就会编码来自不同领域的特征之间的对应关系。尽管Ben-David和Schuller[61]通过实验表明,SCL可以减少领域之间的差异,但如何选择支点特征是困难的,而且是依赖于领域的。在[38]中,Blitzer等人使用启发式方法为自然语言处理(NLP)问题选择支点特征,如句子的标记。在他们的后续工作中,研究人员提出使用相互信息(MI)来选择支点特征,而不是使用更多的启发式标准[8]。MI-SCL试图找到一些对源域中的标签有高度依赖性的支点特征。

NLP领域的迁移学习有时被称为领域适应。在这一领域,Daume [39] ´提出了一个用于NLP问题的内核映射函数。提出了一个用于NLP问题的内核映射函数,该函数 将源域和目标域的数据映射到一个 高维特征空间,其中标准的判别性 学习方法来训练分类器。然而。构建的核映射函数是由领域知识 驱动的。要将内核映射推广到其他领域或应用中并不容易。领域或应用。Blitzer等人[62]分析了最小化一个凸面的算法的统一收敛界限。的算法的统一收敛边界,该算法最小化了源和目标经验的凸 源和目标经验风险的凸组合的算法的统一收敛边界。

在[36]中,Dai等人提出了一种基于协同聚类的算法,将标签信息传播到不同领域。在[63]中,Xing等人提出了一种被称为桥接细化的新算法,将无转移意识的分类器预测的标签向目标分布进行修正,并将训练和测试数据的混合分布作为桥梁,以更好地从训练数据转移到测试数据。在[64]中,Ling等人提出了一个跨域迁移学习问题的光谱分类框架,其中引入了目标函数来寻求域内监督和域外内在结构的一致性。在[65]中,Xue等人提出了一种跨域文本分类算法,该算法扩展了传统的概率潜在语义分析(PLSA)算法,将来自不同但相关领域的有标签和无标签的数据,整合到一个统一的概率模型。这个新的模型被称为 "主题混合的PLSA",或TPLSA。

Pan等人最近提出了通过降维的迁移学习[66]。在这项工作中,Pan等人利用最初为降维而设计的最大平均差异嵌入(MMDE)方法来学习一个低维空间,以减少不同领域之间的分布差异,从而进行传递学习。然而,MMDE可能受到其计算负担的影响。因此,在[67]中,Pan等人进一步提出了一种高效的特征提取算法,即转移成分分析(TCA)来克服MMDE的缺点。

5 无监督迁移学习

定义4(无监督迁移学习)给定一个具有学习任务TS的源域DS,一个目标域DT。源域DS与学习任务TS,目标域DT 和相应的学习任务TT,无监督迁移学习旨在帮助提高目标域的学习效率。学习的目的是帮助提高目标域的学习 预测函数fT(-)7在DT中使用DS和TS中的知识。和TS,其中TS=TT,YS和YT是不可观察的。根据无监督迁移学习的定义,在训练中没有观察到源域和目标域的标记数据。训练中没有观察到源域和目标域的标记数据。到目前为止,关于这种设置的研究工作很少 关于这种设置的研究工作很少。最近,自学聚类(STC)[26] 和转移判别分析(TDA)[27]算法 被提出来用于转移聚类和转移降维问题。

5.1 基于特征的迁移学习

Dai等人[26]研究了一种新的聚类问题,被称为自学聚类。自学聚类是无监督迁移学习的一个实例,其目的是在源域大量无标签数据的帮助下,对目标域的少量无标签数据进行聚类。STC试图学习一个跨领域的共同特征空间,这有助于在目标领域进行聚类。STC的目标函数显示如下。
\quad J(\tilde{X}_T ,\tilde{X}_S,\tilde{Z}) \tag{7} \\=I(X_T , Z) − I(\tilde{X}_T ,\tilde{Z}) + λ\left [I(X_S, Z) − I(\tilde{X}_S,\tilde{Z})\right ]
其中X_SX_T分别是源域和目标域的数据。Z是由X_SX_T共享的特征空间,I(·, ·)是两个随机变量之间的相互信息。假设存在三个聚类函数C_{X_T} : X_T → \tilde{X}_T, C_{X_S} : X_S→\tilde{X} SC_Z:Z→\tilde{Z},其中\tilde{X}_T,\tilde{X}_S\tilde{Z}分别是X_T、X_SZ的对应集群。STC的目标是通过解决优化问题(7)来学习\tilde{X}_T
\underset{\tilde{X}_T ,\tilde{X}_S,\tilde{Z}}{\arg\min}\quad J(\tilde{X}_T ,\tilde{X}_S,\tilde{Z}) \tag{8}
[26]给出了一个解决优化函数(8)的迭代算法。

同样,[27]提出了一种转移判别分析(TDA)算法来解决转移降维问题。TDA首先应用聚类方法为目标未标记的数据生成伪类标签。然后,它将降维方法应用于目标数据和标记的源数据,以减少维度。这两个步骤迭代运行以找到目标数据的最佳子空间。

6 迁移边界(TRANSFER BOUNDS)和负迁移(NEGATIVE TRANSFER)

一个重要的问题是要认识到迁移学习的力量的极限。迁移学习的极限。在[68]中,Hassan Mahmud和Ray用Kolmogorov复杂性分析了 使用Kolmogorov复杂性分析了迁移学习的情况。其中证明了一些理论上的界限。特别是 作者使用条件Kolmogorov复杂性来衡量 任务之间的关联性,并在顺序迁移学习中转移 "正确 "的信息量。在贝叶斯框架下的顺序迁移学习任务中的 "正确 "信息。

最近,Eaton等人[69]提出了一种新的基于图的知识转移方法,其中源任务之间的关系是通过将所学的源模型集嵌入图中,以可转移性作为衡量标准来建模。转移到一个新任务的过程是将问题映射到图中,然后在这个图上学习一个函数,自动确定转移到新学习任务中的参数。

当源领域的数据和任务导致目标领域的学习性能降低时,就会发生负迁移。尽管如何避免负迁移是一个非常重要的问题,但关于这个话题的研究工作却很少。Rosenstein等人[70]通过经验表明,如果两个任务过于不同,那么暴力转移可能会损害目标任务的性能。一些工作已经被利用来分析任务之间的关联性和任务聚类技术,如[71],[72],这可能有助于为如何自动避免负面转移提供指导。Bakker和Heskes[72]采用了一种贝叶斯方法,其中一些模型参数对所有任务来说是共享的,其他的则通过可以从数据中学习到的联合先验分布进行更松散的连接。因此,根据任务参数对数据进行聚类,在同一聚类中的任务应该是相互关联的。Argyriou等人[73]考虑了学习任务可以被分成组的情况。每个组内的任务通过共享一个低维表征而联系在一起,这个表征在不同的组中是不同的。因此,一个组内的任务可以发现更容易转移有用的知识。

7 迁移学习的应用

最近,迁移学习技术已经成功地应用于许多现实世界的应用。Raina等人[74]和Dai等人[36], [28]分别提出使用迁移学习技术来学习跨领域的文本数据。Blitzer等人[38]提出使用SCL来解决NLP问题。在[8]中提出了SCL的一个扩展,用于解决情感分类问题。Wu和Dietterich[53]提出使用不充分的目标域数据和大量低质量的源域数据来解决图像分类问题。Arnold等人[58]提出使用过渡性迁移学习方法来解决名字-实体识别问题。在[75]、[76]、[77]、[78]、[79]中,提出了迁移学习技术,从WiFi定位模型中提取跨时间段、跨空间和跨移动设备的知识,以有利于其他环境下的WiFi定位任务。Zhuo等人[80]研究了如何在自动规划中转移领域知识以学习跨领域的关系行动模型。

在[81]中,Raykar等人提出了一种新的贝叶斯多实例学习算法,该算法可以自动识别相关的特征子集,并使用归纳转移来学习多个但概念相关的分类器,用于计算机辅助设计(CAD)。在[82]中,Ling等人提出了一种迁移学习的信息论方法,以解决将网页从英文翻译成中文的跨语言分类问题。该方法解决了有大量标记的英文文本数据而只有少量标记的中文文本文档的问题。通过设计一个合适的映射函数作为桥梁来实现两个特征空间的迁移学习。

到目前为止,至少有两个基于迁移学习的国际竞赛,它们提供了一些急需的公共数据。在ECML/PKDD-2006的发现挑战8中,任务是处理个性化的垃圾邮件过滤和跨相关学习任务的泛化。为了训练一个垃圾邮件过滤系统,我们需要从一组用户那里收集大量的电子邮件,并贴上相应的标签:垃圾邮件或非垃圾邮件,并基于这些数据训练一个分类器。对于一个新的电子邮件用户,我们可能想为用户调整学到的模型。挑战在于,第一组用户和新用户的邮件分布是不同的。因此,这个问题可以被建模为一个归纳迁移学习问题,其目的是用较少的训练数据和训练时间使旧的垃圾邮件过滤模型适应新的情况。

第二个数据集是通过ICDM2007竞赛提供的,其中一个任务是利用在不同时期获得的WiFi信号数据来估计WiFi客户端的室内位置[83]。由于WiFi信号强度的值可能是时间、空间和设备的函数,不同时间段的WiFi数据的分布可能非常不同。因此,必须设计迁移学习来减少数据的重新标记工作。

关于迁移学习的数据集: 到目前为止,已经有几个数据集被公布用于迁移学习研究。我们分别用Text、Email、WiFiSen来表示文本挖掘数据集、垃圾邮件过滤数据集、不同时间段的WiFi定位数据集和情感分类数据集。

  • Text 三个数据集,20 Newsgroups, SRAA and Reuters21578[9](http://apex.sjtu.edu.cn/apex wiki/dwyak),已经被一些研究者预处理过,用于迁移学习的设置。这些数据集中的数据被归类为一个分层结构。来自同一父类别下不同子类别的数据被认为是来自不同但相关的领域。我们的任务是预测父类别的标签。
  • Email 这个数据集是由2006 ECML/PKDD discovery challenge提供的。
  • WiFi 这个数据集是由ICDM-2007 Contest10提供的。这些数据是在一个建筑物内收集的,用于在两个不同时间段内对145.5×37.5平方米范围进行定位。
  • Sen 这个数据集首次在[8] 11中使用。这个数据集包含从Amazon.com下载的4种产品类型(领域)的产品评论厨房、书籍、DVD和电子产品。每个领域都有几千条评论,但具体数量因领域而异。评论包含星级评价(1到5颗星)。

实证评估(Empirical Evaluation )为了说明迁移学习方法与传统学习方法相比能带来多大的好处,研究人员使用了一些公共数据集。我们在表5中展示了从一些已发表的迁移学习论文中提取的列表。在[6]、[84]、[49]中,作者使用了20个新闻组的数据12作为评估数据集之一。由于不同研究者对算法的预处理步骤不同,很难直接比较提出的方法。因此,我们分别用20-Newsgroups1、20-Newsgroups2和20-Newsgroups3来表示,并在表中显示所提出的迁移学习方法与非迁移学习方法的比较结果。

在20个新闻组1的数据中,Dai等人[6]展示了标准支持向量机(SVM)和所提出的TrAdaBoost算法之间的比较实验。在20个新闻组2上,Shi等人[84]应用主动学习算法选择重要实例进行迁移学习(AcTraK),并使用TrAdaBoost和标准SVM。Gao等人[49]在20个新闻组3上评估了他们提出的局部加权集合学习算法pLWE和LWE,与SVM和Logistic Regression(LR)进行了比较。

此外,在表中,我们还显示了在[8]中报告的情感分类数据集上的比较结果。在这个数据集上,SGD表示带有Huber损失的随机梯度修正算法,SCL表示通过结构对应学习算法学到的新表征上的线性预测器,SCL-MI是SCL的扩展,通过应用相互信息来选择SCL算法的枢纽特征。

最后,在WiFi定位数据集上,我们展示了[67]中报告的比较结果,其中基线是正则化最小平方回归模型(RLSR),这是一个标准的回归模型,而KPCA代表将RLSR应用于通过内核原则成分分析学习的数据的新表示。比较的迁移学习方法包括核平均匹配(KMM)和所提出的算法,转移成分分析(TCA)。

关于实验结果的更多细节,读者可以参考表中显示的参考论文。从这些比较结果中,我们可以发现,为现实世界的应用而适当设计的迁移学习方法与非迁移学习方法相比,确实可以显著提高性能。

迁移学习的Tool Box:加州大学伯克利分校的研究人员提供了一个用于迁移学习的MATLAB工具箱13。该工具箱包含了迁移学习的算法和基准数据集。此外,它还提供了一个开发和测试迁移学习新算法的标准平台。

image.png

7.1 其他迁移学习的应用

迁移学习在顺序机器学习中也发现了许多应用。例如,[85]提出了一种基于图的方法来识别以前遇到的游戏,并将这种技术应用于价值函数转移的自动领域映射,并加快对以前玩过的游戏变体的强化学习。在翻译学习中提出了一种在完全不同的特征空间之间转移的新方法,它是通过学习一个用于桥接两个完全不同领域(图像和文本)的特征的映射函数来实现的[86]。最后,Li等人[87],[88]将迁移学习应用于协同过滤问题,以解决冷启动和稀疏问题。在[87]中,Li等人在潜伏的用户和项目集群变量方面学习了一个共享的评分模式混合模型,称为评分矩阵生成模型(RMGM)。RMGM通过将每个评级矩阵中的用户和项目映射到共享的潜在用户和项目空间上,将来自不同领域的多个评级矩阵连接起来,以转移有用的知识。在[88]中,他们对辅助评级矩阵中的用户和项目应用了共聚类算法。然后,他们构建了一个集群级的评级矩阵,称为编码本。通过假设目标评分矩阵(关于电影)与辅助评分矩阵(关于书籍)相关,目标域可以通过扩展编码本来重建,完成知识转移过程。

8 总结

在这篇调查文章中,我们回顾了当前迁移学习的几个趋势。迁移学习被划分为三种不同的设置:归纳迁移学习、转归迁移学习和无监督迁移学习。以前的工作大多集中在前两种设置上。无监督的迁移学习在未来可能会吸引越来越多的关注。

此外,每一种迁移学习的方法都可以根据学习中 "转移什么 "而被分为四种情况。它们分别包括实例转移方法、特征呈现转移方法、参数转移方法和关系知识转移方法。前三种情况对数据有一个i.i.d的假设,而最后一种情况则是处理关系数据的迁移学习。这些方法大多假设所选的源域与目标域相关。

在未来,有几个重要的研究问题需要解决。首先,如何避免负迁移是一个开放的问题。如第6节所述,许多提议的迁移学习算法都假定源域和目标域在某种意义上是相关的。然而,如果这个假设不成立,就可能发生负迁移,这可能导致学习者的表现比没有迁移更差。因此,如何确保不发生负迁移是迁移学习的一个关键问题。为了避免负迁移学习,我们首先需要研究源领域或任务与目标领域或任务之间的可迁移性。基于合适的可转移性措施,我们可以选择相关的源领域或任务,从中提取知识来学习目标任务。为了定义领域和任务之间的可转移性,我们还需要定义标准来衡量领域或任务之间的相似性。基于距离测量,我们可以对领域或任务进行聚类,这可能有助于衡量可转移性。一个相关的问题是,当整个领域不能用于迁移学习时,我们是否还能迁移部分领域,以便在目标领域进行有用的学习。

此外,到目前为止,大多数现有的迁移学习算法都集中在提高源域和目标域或任务之间不同分布的泛化能力。这样做时,他们假设源域和目标域之间的特征空间是相同的。然而,在许多应用中,我们可能希望在具有不同特征空间的领域或任务之间转移知识,并从多个这样的源域中转移。我们把这种类型的迁移学习称为异质性迁移学习。

最后,到目前为止,迁移学习技术主要应用于小规模的、种类有限的应用,如基于传感器网络的定位、文本分类和图像分类问题。在未来,迁移学习技术将被广泛用于解决其他具有挑战性的应用,如视频分类、社会网络分析和逻辑推理。

参考资料

看原文。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,884评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,755评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,369评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,799评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,910评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,096评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,159评论 3 411
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,917评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,360评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,673评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,814评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,509评论 4 334
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,156评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,882评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,123评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,641评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,728评论 2 351

推荐阅读更多精彩内容